调戏 Baidu

由 徐永久 发表于 2006年02月27日 00:33。

为什么要调戏 Baidu ,因为它愚蠢。
为什么他愚蠢? 因为它会集中,大批量的发送 Spider 信息给一个网站。
怎么调戏?两个方法:

第一个:如果是通过 Baidu 网站引用过来的,利用 Squid 的 功能提示错误信息,让用户再次点击连接才能阅读文章。 Squid 实现方法:

acl BAIDU referer_regex baidu.com
http_access deny BAIDU
deny_info ERR_BAIDU BAIDU

例如: http://www.baidu.com/s?th=baidu&cl=3&word=site%3Afreelamp.com+linux

第二,利用 Apache , mod_rewrite 把来自 Baiduspider 的请求定向到 Baidu 上的某篇文章:

http://post.baidu.com/f?ct=335675392&tn=baiduPostBrowser&sc=84053900&z=10106113&pn=0&rn=50&lm=0&word=%B0%D9%B6%C8%B5%C7%C2%BC#84053900

让他自己去爬自己。去年 8848 恶意修改百度、搜狐、中搜在线等网站的搜索,后来被 Baidu 利用,其实也就是用了这项技术。

这样,在日志里就可以看到 302 记录:

202.108.22.85 – – [27/Feb/2006:00:09:52 +0800] “GET http://xxx.net/content/view/316161/35/ HTTP/1.1” 302 803 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
61.135.145.219 – – [27/Feb/2006:00:09:54 +0800] “GET http://xxx.net/content/view/316139/31/ HTTP/1.1” 403 1457 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
202.108.22.85 – – [27/Feb/2006:00:09:55 +0800] “GET