html expert advice :-)
我看到evercookie http://samy.pl/evercookie/我感觉这evercookie还不够强大,我使用最新的firefox浏览器,我只要在Tools\Options\Privacy\Clear your recent history\Time range to clear Everything and select everything in the details checkbox clear now,然后我测试,发现evercookie被彻底清除
我想问有啥办法可以在我清除浏览器后,仍旧能跟踪啊? 这个本来就是利用浏览器可能清不干净本地缓存数据的特点来弄的,但是随着浏览器不断改进,我觉得应该是没有办法的。从用户角度来讲,是不希望出现这种常驻的缓存的。 本帖最后由 DDD888 于 2-7-2014 11:57 编辑
spaceship 发表于 2-7-2014 11:38 static/image/common/back.gif
这个本来就是利用浏览器可能清不干净本地缓存数据的特点来弄的,但是随着浏览器不断改进,我觉得应该是没有 ...
问题是我现在遇到一个人,不断的改变IP地址(全世界各地的IP地址 ),不断的清COOKIE,,写代码驱动浏览器来抓取我写的网站的数据,我该如何办?我写的网站不需要注册,没有办法使用用户名,口令的方式。 DDD888 发表于 2-7-2014 11:54 static/image/common/back.gif
问题是我现在遇到一个人,不断的改变IP地址(全世界各地的IP地址 ),不断的清COOKIE,,写代码驱动浏览器 ...
这个难以避免,用程序很容易实现不留cookie,如果它这的有那么多IP的话,你无法杜绝这种数据采集,否则可能影响别的正常用户。
你看看有没有什么规律可循,比如是定时抓取还是怎么样,当然也可以增加一些验证码来提高程序采集的难度:
http://www.lxvoip.net/other-resources/recaptcha.html
ubuntuhk 发表于 2-7-2014 13:45 static/image/common/back.gif
这个难以避免,用程序很容易实现不留cookie,如果它这的有那么多IP的话,你无法杜绝这种数据采集,否则 ...
我不能加验证码,为了一个人而让其他所有客户都输入验证码是不可以接受的。 DDD888 发表于 2-7-2014 13:58 static/image/common/back.gif
我不能加验证码,为了一个人而让其他所有客户都输入验证码是不可以接受的。
那就只能找这个人的访问pattern来进行封禁了。 话说他采集你的数据干什么?设立一个镜像站点和你们竞争? ubuntuhk 发表于 2-7-2014 14:05 static/image/common/back.gif
那就只能找这个人的访问pattern来进行封禁了。
问题是还有许多澳大利亚,新西兰的公司雇佣的人坐在计算机前来手工获取数据,copy&paste ubuntuhk 发表于 2-7-2014 14:10 static/image/common/back.gif
话说他采集你的数据干什么?设立一个镜像站点和你们竞争?
我也不知道 本帖最后由 karl.lee.2004 于 2-7-2014 15:50 编辑
可以考虑一下,在页面中加入“让人类看到,让机器疯掉”的内容。比如设定一些特殊的Css,其内容肉眼看不出来,但机器无法识别,只能照搬。
还有我知道一些香港的网站,为了防止大陆网站用爬虫收集内容,故意在网站中加入各种敏感词,利用GFW,让爬虫有去无回...
如果没办法禁止对方偷你的数据,就塞给对方一些脏数据,让其拿到了也没用。 DDD888 发表于 2-7-2014 14:11 static/image/common/back.gif
问题是还有许多澳大利亚,新西兰的公司雇佣的人坐在计算机前来手工获取数据,copy&paste
那这个你貌似很难控制,你又不想设置账号&密码。 karl.lee.2004 发表于 2-7-2014 15:48 static/image/common/back.gif
可以考虑一下,在页面中加入“让人类看到,让机器疯掉”的内容。比如设定一些特殊的Css,其内容肉眼看不出来 ...
这招也只能应付大陆的爬虫,从境外租一个服务器当爬虫就没办法了。 karl.lee.2004 发表于 2-7-2014 15:48 static/image/common/back.gif
可以考虑一下,在页面中加入“让人类看到,让机器疯掉”的内容。比如设定一些特殊的Css,其内容肉眼看不出来 ...
高手:loveliness:
但我的老板说将来他想做中国人的生意 我给老板的建议是用图片来代替文字数据,反正人看图片和看字没啥区别,但对计算机要从图片里提取数据,必须使用OCR,这就非常高端啦:lol 本帖最后由 DDD888 于 2-7-2014 19:58 编辑
刚才老板发信来说竞争对手抄袭了网站的许多功能
竞争对手的网站是直接向用户收费的,需要登录才能使用
我写的网站是不向最终用户收费的,不需要登录就可以使用,所以只能他们抄我写的,不能我抄他们写的,太不公平啦 DDD888 发表于 2-7-2014 19:56 static/image/common/back.gif
刚才老板发信来说竞争对手抄袭了网站的许多功能
竞争对手的网站是直接向用户收费的,需要登录才能使用
那你们为什么不能加入用户登录的功能呢? ubuntuhk 发表于 2-7-2014 20:34 static/image/common/back.gif
那你们为什么不能加入用户登录的功能呢?
有些业务是不能要求用户登录的,例如http://www.seek.com.au/,不需要登录就可以搜索工作 DDD888 发表于 3-7-2014 06:13 static/image/common/back.gif
有些业务是不能要求用户登录的,例如http://www.seek.com.au/,不需要登录就可以搜索工作
可否考虑,不登陆的话虽然可以搜索,但一些关键的业务信息,只有登录后才能查看。
或者设置验证码,如果不登陆的话,只有填对了验证码才能继续查看?
不过话又说回来,如果光从技术角度来考虑问题,忽略了业务层面的需求,设计出来的技术方案,恐怕不耐磨。
我现在的项目也有些类似的问题,找个时间写点东西分享一下。 这个问题的确比较麻烦,没有用户登录,你完全没有办法去区分是机器在抓还是用户访问。这个不光是技术层面的问题了。如果光从技术考虑的话,可以获取正常的用户访问access log,用人工智能学习,提取特征,然后用来区分正常访问还是非正常访问,哈哈,不过可能准确率不一定很高,所以个人认为这个问题不是技术上的问题了。而且如果对方采用人肉抓取内容,根本就没有办法。就像楼上说的,只能通过产品层面去解决。 black_zerg 发表于 14-7-2014 16:11 static/image/common/back.gif
Move logic to front end, encrypt the json data
这样只会让人家的抓取变得麻烦一些,但还是有办法抓取的。而且如果要做SEO的话,这种方式就不合适了。 本帖最后由 DDD888 于 14-7-2014 20:01 编辑
谢谢大家的建议,我三种方法The Js is uglyfied, json is encrypted,using image都做了,那黑客已消停了:P 今天还看到一个新的技术,帆布指纹,原理是通过JS绘制一个HTML5 CANVAS,然后用 canvas.toDataURL()返回BASE64的编码字符串,然后CHUNK划分,提取最后一段32位的CRC校验作为唯一标识。原理是虽然JS代码相同,绘制的图片也相同,但是因为机器(比如显示器分辨率)和浏览器渲染差异,图片的原始内容是不同的,因此可以获得唯一的用户标识。并且现阶段无法被屏蔽。除非以后浏览器在渲染CANVAS的时候采用随机内容。 本帖最后由 DDD888 于 29-7-2014 12:23 编辑
spaceship 发表于 29-7-2014 11:18 static/image/common/back.gif
今天还看到一个新的技术,帆布指纹,原理是通过JS绘制一个HTML5 CANVAS,然后用 canvas.toDataURL()返回BAS ...
谢谢:loveliness:
这是参考
http://www.tuicool.com/articles/JNJjMjm
该文章链接里漏掉的bin2hex代码
https://github.com/kvz/phpjs/blob/master/functions/strings/bin2hex.js
页:
[1]