您现在的位置:首页 --> 查看专题: 链接补全
Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。
背景 Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优化收录效果。 当前大多数互联网网站以索引页和翻页的形式来组织网站资源,当有新资源增加时,老资源往后推移到翻页系列中。
[ 共2篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
-
[1192] WordPress插件开发 -- 在插件使用 -
[81] 解决 nginx 反向代理网页首尾出现神秘字 -
[43] web开发设计人员不可不用的在线web工具和 -
[36] Java开发岗位面试题归类汇总 -
[30] Rax 系列教程(长列表) -
[29] 手机产品设计方向 -
[29] 一句话crontab实现防ssh暴力破解 -
[27] 如何建立合适的索引? -
[27] 程序员疫苗:代码注入 -
[25] 我对学习oracle与成长的理解
赞助商广告