找回密码
 FreeOZ用户注册
查看: 1890|回复: 24
打印 上一主题 下一主题

[学习深造] html expert advice :-)

[复制链接]
跳转到指定楼层
1#
发表于 2-7-2014 08:17:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?FreeOZ用户注册

x
我看到evercookie http://samy.pl/evercookie/

我感觉这evercookie还不够强大,我使用最新的firefox浏览器,我只要在Tools\Options\Privacy\Clear your recent history\Time range to clear Everything and select everything in the details checkbox clear now,然后我测试,发现evercookie被彻底清除

我想问有啥办法可以在我清除浏览器后,仍旧能跟踪啊?
回复  

使用道具 举报

2#
发表于 2-7-2014 12:38:49 | 只看该作者
这个本来就是利用浏览器可能清不干净本地缓存数据的特点来弄的,但是随着浏览器不断改进,我觉得应该是没有办法的。从用户角度来讲,是不希望出现这种常驻的缓存的。
回复  

使用道具 举报

3#
 楼主| 发表于 2-7-2014 12:54:49 | 只看该作者
本帖最后由 DDD888 于 2-7-2014 11:57 编辑


问题是我现在遇到一个人,不断的改变IP地址(全世界各地的IP地址 ),不断的清COOKIE,,写代码驱动浏览器来抓取我写的网站的数据,我该如何办?我写的网站不需要注册,没有办法使用用户名,口令的方式。
回复  

使用道具 举报

4#
发表于 2-7-2014 14:45:01 | 只看该作者
DDD888 发表于 2-7-2014 11:54
问题是我现在遇到一个人,不断的改变IP地址(全世界各地的IP地址 ),不断的清COOKIE,,写代码驱动浏览器 ...


这个难以避免,用程序很容易实现不留cookie,如果它这的有那么多IP的话,你无法杜绝这种数据采集,否则可能影响别的正常用户。

你看看有没有什么规律可循,比如是定时抓取还是怎么样,当然也可以增加一些验证码来提高程序采集的难度:
http://www.lxvoip.net/other-resources/recaptcha.html

回复  

使用道具 举报

5#
 楼主| 发表于 2-7-2014 14:58:15 | 只看该作者
ubuntuhk 发表于 2-7-2014 13:45
这个难以避免,用程序很容易实现不留cookie,如果它这的有那么多IP的话,你无法杜绝这种数据采集,否则 ...

我不能加验证码,为了一个人而让其他所有客户都输入验证码是不可以接受的。
回复  

使用道具 举报

6#
发表于 2-7-2014 15:05:05 | 只看该作者
DDD888 发表于 2-7-2014 13:58
我不能加验证码,为了一个人而让其他所有客户都输入验证码是不可以接受的。


那就只能找这个人的访问pattern来进行封禁了。
回复  

使用道具 举报

7#
发表于 2-7-2014 15:10:06 | 只看该作者
话说他采集你的数据干什么?设立一个镜像站点和你们竞争?
回复  

使用道具 举报

8#
 楼主| 发表于 2-7-2014 15:11:14 | 只看该作者
ubuntuhk 发表于 2-7-2014 14:05
那就只能找这个人的访问pattern来进行封禁了。


问题是还有许多澳大利亚,新西兰的公司雇佣的人坐在计算机前来手工获取数据,copy&paste
回复  

使用道具 举报

9#
 楼主| 发表于 2-7-2014 15:14:11 | 只看该作者
ubuntuhk 发表于 2-7-2014 14:10
话说他采集你的数据干什么?设立一个镜像站点和你们竞争?

我也不知道
回复  

使用道具 举报

10#
发表于 2-7-2014 16:48:26 | 只看该作者
本帖最后由 karl.lee.2004 于 2-7-2014 15:50 编辑

可以考虑一下,在页面中加入“让人类看到,让机器疯掉”的内容。比如设定一些特殊的Css,其内容肉眼看不出来,但机器无法识别,只能照搬。

还有我知道一些香港的网站,为了防止大陆网站用爬虫收集内容,故意在网站中加入各种敏感词,利用GFW,让爬虫有去无回...

如果没办法禁止对方偷你的数据,就塞给对方一些脏数据,让其拿到了也没用。

评分

参与人数 1威望 +20 收起 理由
ubuntuhk + 20 你太有才了!

查看全部评分

回复  

使用道具 举报

11#
发表于 2-7-2014 18:29:50 | 只看该作者
DDD888 发表于 2-7-2014 14:11
问题是还有许多澳大利亚,新西兰的公司雇佣的人坐在计算机前来手工获取数据,copy&paste


那这个你貌似很难控制,你又不想设置账号&密码。
回复  

使用道具 举报

12#
发表于 2-7-2014 18:30:40 | 只看该作者
karl.lee.2004 发表于 2-7-2014 15:48
可以考虑一下,在页面中加入“让人类看到,让机器疯掉”的内容。比如设定一些特殊的Css,其内容肉眼看不出来 ...


这招也只能应付大陆的爬虫,从境外租一个服务器当爬虫就没办法了。
回复  

使用道具 举报

13#
 楼主| 发表于 2-7-2014 19:23:44 | 只看该作者
karl.lee.2004 发表于 2-7-2014 15:48
可以考虑一下,在页面中加入“让人类看到,让机器疯掉”的内容。比如设定一些特殊的Css,其内容肉眼看不出来 ...

高手

但我的老板说将来他想做中国人的生意
回复  

使用道具 举报

14#
 楼主| 发表于 2-7-2014 20:00:17 | 只看该作者
我给老板的建议是用图片来代替文字数据,反正人看图片和看字没啥区别,但对计算机要从图片里提取数据,必须使用OCR,这就非常高端啦
回复  

使用道具 举报

15#
 楼主| 发表于 2-7-2014 20:56:13 | 只看该作者
本帖最后由 DDD888 于 2-7-2014 19:58 编辑

刚才老板发信来说竞争对手抄袭了网站的许多功能

竞争对手的网站是直接向用户收费的,需要登录才能使用

我写的网站是不向最终用户收费的,不需要登录就可以使用,所以只能他们抄我写的,不能我抄他们写的,太不公平啦
回复  

使用道具 举报

16#
发表于 2-7-2014 21:34:03 | 只看该作者
DDD888 发表于 2-7-2014 19:56
刚才老板发信来说竞争对手抄袭了网站的许多功能

竞争对手的网站是直接向用户收费的,需要登录才能使用


那你们为什么不能加入用户登录的功能呢?
回复  

使用道具 举报

17#
 楼主| 发表于 3-7-2014 07:13:13 | 只看该作者
ubuntuhk 发表于 2-7-2014 20:34
那你们为什么不能加入用户登录的功能呢?

有些业务是不能要求用户登录的,例如http://www.seek.com.au/,不需要登录就可以搜索工作
回复  

使用道具 举报

18#
发表于 3-7-2014 08:37:52 | 只看该作者
DDD888 发表于 3-7-2014 06:13
有些业务是不能要求用户登录的,例如http://www.seek.com.au/,不需要登录就可以搜索工作

可否考虑,不登陆的话虽然可以搜索,但一些关键的业务信息,只有登录后才能查看。

或者设置验证码,如果不登陆的话,只有填对了验证码才能继续查看?

不过话又说回来,如果光从技术角度来考虑问题,忽略了业务层面的需求,设计出来的技术方案,恐怕不耐磨。

我现在的项目也有些类似的问题,找个时间写点东西分享一下。

评分

参与人数 1威望 +30 收起 理由
ubuntuhk + 30 我很赞同!

查看全部评分

回复  

使用道具 举报

19#
发表于 14-7-2014 16:36:48 | 只看该作者
这个问题的确比较麻烦,没有用户登录,你完全没有办法去区分是机器在抓还是用户访问。这个不光是技术层面的问题了。如果光从技术考虑的话,可以获取正常的用户访问access log,用人工智能学习,提取特征,然后用来区分正常访问还是非正常访问,哈哈,不过可能准确率不一定很高,所以个人认为这个问题不是技术上的问题了。而且如果对方采用人肉抓取内容,根本就没有办法。就像楼上说的,只能通过产品层面去解决。
回复  

使用道具 举报

20#
发表于 14-7-2014 17:11:43 来自手机 | 只看该作者
提示: 作者被禁止或删除, 无法发言
Move logic to front end, encrypt the json data
回复  

使用道具 举报

21#
发表于 14-7-2014 17:24:27 | 只看该作者
black_zerg 发表于 14-7-2014 16:11
Move logic to front end, encrypt the json data

这样只会让人家的抓取变得麻烦一些,但还是有办法抓取的。而且如果要做SEO的话,这种方式就不合适了。
回复  

使用道具 举报

22#
发表于 14-7-2014 17:34:59 来自手机 | 只看该作者
提示: 作者被禁止或删除, 无法发言
本帖最后由 black_zerg 于 14-7-2014 20:41 编辑

If the Js is uglified and json is encrypted,  extracting the data by code won't be an easy task.  Using image is a stronger way,  but user won't like it
回复  

使用道具 举报

23#
 楼主| 发表于 14-7-2014 20:34:29 | 只看该作者
本帖最后由 DDD888 于 14-7-2014 20:01 编辑

谢谢大家的建议,我三种方法The Js is uglyfied, json is encrypted,using image都做了,那黑客已消停了

评分

参与人数 2威望 +70 收起 理由
karl.lee.2004 + 50 你太有才了!
black_zerg + 20 你太有才了!

查看全部评分

回复  

使用道具 举报

24#
发表于 29-7-2014 12:18:31 | 只看该作者
今天还看到一个新的技术,帆布指纹,原理是通过JS绘制一个HTML5 CANVAS,然后用 canvas.toDataURL()返回BASE64的编码字符串,然后CHUNK划分,提取最后一段32位的CRC校验作为唯一标识。原理是虽然JS代码相同,绘制的图片也相同,但是因为机器(比如显示器分辨率)和浏览器渲染差异,图片的原始内容是不同的,因此可以获得唯一的用户标识。并且现阶段无法被屏蔽。除非以后浏览器在渲染CANVAS的时候采用随机内容。
回复  

使用道具 举报

25#
 楼主| 发表于 29-7-2014 13:10:23 | 只看该作者
本帖最后由 DDD888 于 29-7-2014 12:23 编辑
spaceship 发表于 29-7-2014 11:18
今天还看到一个新的技术,帆布指纹,原理是通过JS绘制一个HTML5 CANVAS,然后用 canvas.toDataURL()返回BAS ...


谢谢

这是参考
http://www.tuicool.com/articles/JNJjMjm

该文章链接里漏掉的bin2hex代码

https://github.com/kvz/phpjs/blo ... /strings/bin2hex.js
回复  

使用道具 举报

您需要登录后才可以回帖 登录 | FreeOZ用户注册

本版积分规则

小黑屋|手机版|Archiver|FreeOZ论坛

GMT+11, 15-11-2025 06:58 , Processed in 0.030333 second(s), 45 queries , Gzip On, Redis On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表