IT技术博客大学习 共学习 共进步

百度搜索URL参数解析

标点符 2012-02-05 15:33:49 浏览 5,583 次

    百度的搜索URL存在着一定的规律和逻辑,下面的链接是我使用百度搜索“标点符”后得到的链接,下面就来一起分析下百度搜索结果URL的秘密。

    http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&inputT=2969

    URL中的s?表示搜索,&符号起到参数分割的作用。上述链接涉及到的参数如下:

  • wd:Keyword,查询的关键词,有时还会是 word,比如www.hao123.com打开的链接就是word,wd后面的关键词使用gb2312进行编码,如果搜索词中出现空格则使用+号替换;
  • rsv_spt:识别浏览器,目前测试下来Chrome、FireFox、Safari的为3,IE浏览器为1;
  • rsv_bp:判断搜索位置:0为从百度首页进入,1为搜索结果顶部搜索,2为搜索结果底部搜索;
  • ie:Input Encoding,查询关键词的编码,缺省设置为简体中文,即ie=gb2312;
  • tn:搜索框来源标识,如百度首页的就是baiduhome_ph,hao123站来的sitehao123,遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好,词数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal 表示百度站内搜索,返回的结果很干净,无广告干扰;
  • inputT:搜索响应时间,单位是毫秒;
  •     以上我上面的URL中出现的参数,但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数:

  • bs:Before Search,上一次搜索的关键词;百度会记录上一次用户的搜索词是什么;
  • sr:结合bs使用。一般查询sr=0或者为空值,但sr=1时,查询将结合bs的值一起作为查询的关键字。默认值为0,除0,1外其它值无效。
  • pn:Page Number,搜索结果的页码,从零开始计数。即pn = ${结果页码-1}*rn;
  • rn:Record Number,搜索结果显示条数,缺省设置rn=10,取值范围:10-100;
  • cl:Class,搜索类型,cl=3为网页搜索,cl=2为图片搜索;
  • lm:搜索结果的时间限制。以天为单位,例如搜索最近一个月的网页,lm=30.默认值为0,表示没有时间限制;
  • ct:语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页;其它不确定或者无效或。默认值为0;
  • q5:搜索内容位置限制。0-所有内容;1-网页标题(相当于使用’title:’查询前缀);2-url(相当于使用’inurl:’查询前缀);其它值等效于0,默认值为0 ;
  • q6:搜索内容网站限制。例如q6=www.biaodianfu.com,表示只搜索http://www.biaodianfu.com/的网页;相当于使用了’site:前缀’,默认值为空
  • dq:不建议使用该参数。查询内容来原的地区限制。具体值有百度确定,默认值为空。使用这个参数的效果很差;
  • oq:相关搜索的主词,例如,搜索“标点符”后点击“标点符号”,出现的相关搜索,用来记录来源词“标点符”,或输入搜索词,输入到一半点推荐关键词的那个词,两个通过出现rsp/rsv_bp进行区分;
  • rsp:相关搜索词的位置,第一个推荐词为0,第二个为1,以此类推;
  • usm:在百度搜索任何词从任何一页点到第三页以后的,都会随机出现usm的参数。当usm=0的时候是正常排名 。当usm=1的时候所有排名后移一位,当usm=2的时候排名后移两位,以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效,也就是说前20名的排名不受词因素影响。此参数具体作用未知;
  • f:搜索判断,f=8用户自主搜索,f=3下拉框推荐,f=1相关搜索;
  • rsv_ers:出现的值为rsv_ers=xn0或rsv_ers=xn1,目前还不知道具体的作用。
  • rs_src:目前看到的都是rs_src=0,此参数与rsv_ers同时出现。
  •     目前发现的参数就这么多,以后如有补充,后期会追加,关于Google搜索URL的分析,下篇日志中再发出。

    建议继续学习

    1. 怎样用好Google进行搜索 (阅读 15,662)
    2. 淘宝搜索:定向抓取网页技术漫谈 (阅读 9,361)
    3. 简析搜索引擎中网络爬虫的搜索策略 (阅读 7,280)
    4. 几种常见的基于Lucene的开源搜索解决方案对比 (阅读 5,981)
    5. 基于用户行为分析的搜索引擎自动性能评价 (阅读 5,602)
    6. 用Sphinx快速搭建站内搜索功能 (阅读 5,561)
    7. Xapian搜索体系结构 (阅读 5,161)
    8. 附近地点搜索初探 (阅读 5,140)
    9. 互联网网站的反爬虫策略浅析 (阅读 5,040)
    10. 整合搜索,阿拉丁,云计算,以及框计算 (阅读 4,740)