您现在的位置:首页 --> 查看专题: robots
网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应,robots协议就此诞生。Robots协议,学名叫:The Robots Exclusion Protocol,就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,把这些内容放到一个纯文本文件robots.txt里,然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt,据此“自觉地”抓取或者不抓取该网页内容,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
[ 共1篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
-
[1199] WordPress插件开发 -- 在插件使用 -
[88] 解决 nginx 反向代理网页首尾出现神秘字 -
[43] web开发设计人员不可不用的在线web工具和 -
[30] Rax 系列教程(长列表) -
[29] 一句话crontab实现防ssh暴力破解 -
[29] Java开发岗位面试题归类汇总 -
[29] 手机产品设计方向 -
[28] 如何建立合适的索引? -
[26] 程序员疫苗:代码注入 -
[25] 我对学习oracle与成长的理解
赞助商广告