您现在的位置:首页 --> 查看专题: robots
网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应,robots协议就此诞生。Robots协议,学名叫:The Robots Exclusion Protocol,就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,把这些内容放到一个纯文本文件robots.txt里,然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt,据此“自觉地”抓取或者不抓取该网页内容,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
[ 共1篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
- [212] 如何拿下简短的域名
- [211] WEB系统需要关注的一些点
- [11] 大并发下的高性能编程 – 改进的(用户态)自
- [11] 关于身份证号的那些事
- [11] Python中的闭包
- [10] 五个实用的Google Analytics过
- [10] 一步一步教你怎样给Apache Spark贡
- [10] [Perl]Moose::Manual::T
- [10] MySQL error log 输出到sys
- [8] Petya和NotPetya的关键技术性区别
赞助商广告