互联网上活跃着大量的bot,他们的目的是收集网络上的信息,有的是搜索引擎,有的是数据供应商,还有的是个人爱好者。

这些形形色色的bot发现链接以后就会贪婪的爬过去,如果它们的算法不是很过关的话,就会对服务器带来很大的压力。

不过要识别这个爬虫也很简单,他们往往都有自定义的user-agent,这个参数是用来让服务器识别客户端身份的。

有一个github列表里,就收集了公开的大部分爬虫的user-agent。

只要发现了这些user-agent,就可以加入block的列表,防止这些爬虫对服务器造成压力,以及污染我们的追踪数据。

https://github.com/monperrus/crawler-user-agents

发表评论

电子邮件地址不会被公开。 必填项已用*标注