
搜完以后怎么组织存储,怎么更新比较复杂.

原帖由 ubuntuhk 于 8-9-2008 01:12 发表
有些爬虫很没流氓,如腾讯的爬虫,多个进程不停地抓取内容,被很多论坛/网站ban掉,也在FreeOZ的黑名单中![]()
![]()
Google的爬虫比较文明,遵守robots.txt的规矩,还设有webmaster tools让管理员查看自己网站的爬行记 ...
,被无数网站列入黑名单.很多网站是更新很慢的,不需要那么频繁的扫.| 欢迎光临 FreeOZ论坛 (https://www.freeoz.org/bbs/) | Powered by Discuz! X3.2 |