2011年11月的文章

邪恶的采集

最近有一台服务器被一些采集快拖死了,整了几天了,也没有找到比较好的办法来处理

下午无意中想到,能否让客户端必须先写入cookie或是加载js后,才能正常进入网站。因为爬虫或采集基本都不能正常写入cookie或加载JS

通过判断cookie的方式来进行一些限制,在用户打开站点时,写入cookie,然后通过cookie中的值来进行判断,如果不匹配就返回空,除开搜索引擎的爬虫,如果客户端无法写入这个cookie也就无法正常加载站点。测试下来基本ok,但是因为要在用户第一次打开的过程中写入cookie,就必然有一次跳转的动作,用户体验不是太好

还有就是通过AJAX的方式GET一个值给python,然后python进行验证,验证不通过则返回为空,这个我没测试,理论上是行得通的。我这暂时用了cookie的方式,虽然用户体验差了点,但至少能保证大部分真实用户的正常访问

不知道各位看官有没有什么比较好的办法?谢谢

BTW:这Firefox升级的太猛烈了,升级到8.0.1后,FCKeditor直接挂掉了,杯具,第一次用HTML写blog,NND,突然想起了《社交网络》,回归原始社会了哦,杯具,漏洞目录

把站点迁移到了Linode日本 Tokyo IDC

看到很多朋友都有迁移过去了,速度确实不错,ping值保持在100左右

自己也测试了下,东京的机房比较近,速度确实还不错,Linode的服务确实也不错,推荐下

迁移、购买好像都没啥说的,网上也有比较多的教程。我在购买的时候还担心支付问题,没想到国内的信用卡也可以直接支付;今天上去看他们有保存信用卡卡号、有效期等信息,看不出有没有存CVV,有点玄乎;已经发邮件过去询问了

BTW, 我的 Linode referral code: c4c36f1a2d3b525013a28fca90433f1c47ae0739

如果你也准备购买,不妨用一下我的 referral code :) dir