邪恶的采集

最近有一台服务器被一些采集快拖死了,整了几天了,也没有找到比较好的办法来处理

下午无意中想到,能否让客户端必须先写入cookie或是加载js后,才能正常进入网站。因为爬虫或采集基本都不能正常写入cookie或加载JS

通过判断cookie的方式来进行一些限制,在用户打开站点时,写入cookie,然后通过cookie中的值来进行判断,如果不匹配就返回空,除开搜索引擎的爬虫,如果客户端无法写入这个cookie也就无法正常加载站点。测试下来基本ok,但是因为要在用户第一次打开的过程中写入cookie,就必然有一次跳转的动作,用户体验不是太好

还有就是通过AJAX的方式GET一个值给python,然后python进行验证,验证不通过则返回为空,这个我没测试,理论上是行得通的。我这暂时用了cookie的方式,虽然用户体验差了点,但至少能保证大部分真实用户的正常访问

不知道各位看官有没有什么比较好的办法?谢谢

BTW:这Firefox升级的太猛烈了,升级到8.0.1后,FCKeditor直接挂掉了,杯具,第一次用HTML写blog,NND,突然想起了《社交网络》,回归原始社会了哦,杯具,漏洞目录

上一篇: 把站点迁移到了Linode日本 Tokyo IDC
下一篇: 携程招聘安全工程师

访客评论
#1
回复 beju 2011-11-27, 23:55:00
你在服务器上写个脚本限制特定时间的访问次数也可以啊
#2
回复 amxku 2011-11-27, 23:56:25
服务器不是我的,限制比较多,这个最杯具的问题
#3
回复 beju 2011-11-28, 00:04:17
那只能杯具的路过了
#4
回复 Mason 2011-11-28, 00:20:55
干扰采集的结果,加入乱码,但是看客没乱码,记得N年前黑客基地有用过类似的方法
#5
回复 buxch4ng 2011-12-02, 10:15:38
最好能检测到频繁采集,那么服务器就限制访问,或加入IP黑名单。
#6
回复 小毛 2011-12-17, 14:09:39
你这个做法模拟登陆就能采集到咯,呵呵
PS:buxch4ng好久不见了!
#7
回复 jqw1992 2013-07-19, 23:05:56
技术牛...
发表评论

评论内容 (必填):