标签：蜘蛛

共 3 篇相关文章

IT 浏览 2,920

真假百度蜘蛛的甄别

虽然百度的口碑并不好，但是不可否认的是，它一直是中文搜索中的霸主，所以对大多数中小型商业公司而言，都对百度蜘蛛的抓取行为予以放行，不过还有很多非法的蜘蛛，它们会通过 User-Agent 把自己伪装成百度蜘蛛，此时如果单纯以 User-Agent 来判断是否是百度蜘蛛就不合适了。虽然网上能找到很多现成的百度蜘蛛 IP 段，但是并不能确认它们的准确性，所以我打算自己收集，进而甄别真假百度蜘蛛。

IT 浏览 4,400

使用nginx限制蜘蛛的频繁抓取

上周被百度蜘蛛给盯上了，百度蜘蛛抓取频率增加了5倍。百度蜘蛛抓取量骤增，导致服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次，多余的抓取请求返回503。

IT 浏览 3,460

搜索引擎爬虫蜘蛛的USERAGENT收集

搜索引擎爬虫蜘蛛的USERAGENT收集