您现在的位置:首页 --> 查看专题: 蜘蛛
虽然百度的口碑并不好,但是不可否认的是,它一直是中文搜索中的霸主,所以对大多数中小型商业公司而言,都对百度蜘蛛的抓取行为予以放行,不过还有很多非法的蜘蛛,它们会通过 User-Agent 把自己伪装成百度蜘蛛,此时如果单纯以 User-Agent 来判断是否是百度蜘蛛就不合适了。虽然网上能找到很多现成的百度蜘蛛 IP 段,但是并不能确认它们的准确性,所以我打算自己收集,进而甄别真假百度蜘蛛。
上周被百度蜘蛛给盯上了,百度蜘蛛抓取频率增加了5倍。百度蜘蛛抓取量骤增,导致服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。
搜索引擎爬虫蜘蛛的USERAGENT收集
[ 共3篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
- [15] 界面设计速成
- [14] 浏览器的工作原理:新式网络浏览器幕后揭秘
- [13] iOS可视化编程 Tips 之“无需代码设置
- [13] Spark性能优化——和shuffle搏斗
- [13] iOS下自己动手造无限循环图片轮播
- [13] Android设计中的.9.png
- [12] 我的git笔记
- [12] Go Reflect 性能
- [12] 最萌域名.cat背后的故事:加泰与西班牙政府
- [11] iOS并发编程(Concurrency Pr
赞助商广告