技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 其他 --> 百度搜索URL参数解析

百度搜索URL参数解析

浏览:4062次  出处信息

    百度的搜索URL存在着一定的规律和逻辑,下面的链接是我使用百度搜索“标点符”后得到的链接,下面就来一起分析下百度搜索结果URL的秘密。

    http://www.baidu.com/s?wd=%E6%A0%87%E7%82%B9%E7%AC%A6&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&inputT=2969

    URL中的s?表示搜索,&符号起到参数分割的作用。上述链接涉及到的参数如下:

  • wd:Keyword,查询的关键词,有时还会是 word,比如www.hao123.com打开的链接就是word,wd后面的关键词使用gb2312进行编码,如果搜索词中出现空格则使用+号替换;
  • rsv_spt:识别浏览器,目前测试下来Chrome、FireFox、Safari的为3,IE浏览器为1;
  • rsv_bp:判断搜索位置:0为从百度首页进入,1为搜索结果顶部搜索,2为搜索结果底部搜索;
  • ie:Input Encoding,查询关键词的编码,缺省设置为简体中文,即ie=gb2312;
  • tn:搜索框来源标识,如百度首页的就是baiduhome_ph,hao123站来的sitehao123,遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好,词数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal 表示百度站内搜索,返回的结果很干净,无广告干扰;
  • inputT:搜索响应时间,单位是毫秒;
  •     以上我上面的URL中出现的参数,但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数:

  • bs:Before Search,上一次搜索的关键词;百度会记录上一次用户的搜索词是什么;
  • sr:结合bs使用。一般查询sr=0或者为空值,但sr=1时,查询将结合bs的值一起作为查询的关键字。默认值为0,除0,1外其它值无效。
  • pn:Page Number,搜索结果的页码,从零开始计数。即pn = ${结果页码-1}*rn;
  • rn:Record Number,搜索结果显示条数,缺省设置rn=10,取值范围:10-100;
  • cl:Class,搜索类型,cl=3为网页搜索,cl=2为图片搜索;
  • lm:搜索结果的时间限制。以天为单位,例如搜索最近一个月的网页,lm=30.默认值为0,表示没有时间限制;
  • ct:语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页;其它不确定或者无效或。默认值为0;
  • q5:搜索内容位置限制。0-所有内容;1-网页标题(相当于使用’title:’查询前缀);2-url(相当于使用’inurl:’查询前缀);其它值等效于0,默认值为0 ;
  • q6:搜索内容网站限制。例如q6=www.biaodianfu.com,表示只搜索http://www.biaodianfu.com/的网页;相当于使用了’site:前缀’,默认值为空
  • dq:不建议使用该参数。查询内容来原的地区限制。具体值有百度确定,默认值为空。使用这个参数的效果很差;
  • oq:相关搜索的主词,例如,搜索“标点符”后点击“标点符号”,出现的相关搜索,用来记录来源词“标点符”,或输入搜索词,输入到一半点推荐关键词的那个词,两个通过出现rsp/rsv_bp进行区分;
  • rsp:相关搜索词的位置,第一个推荐词为0,第二个为1,以此类推;
  • usm:在百度搜索任何词从任何一页点到第三页以后的,都会随机出现usm的参数。当usm=0的时候是正常排名 。当usm=1的时候所有排名后移一位,当usm=2的时候排名后移两位,以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效,也就是说前20名的排名不受词因素影响。此参数具体作用未知;
  • f:搜索判断,f=8用户自主搜索,f=3下拉框推荐,f=1相关搜索;
  • rsv_ers:出现的值为rsv_ers=xn0或rsv_ers=xn1,目前还不知道具体的作用。
  • rs_src:目前看到的都是rs_src=0,此参数与rsv_ers同时出现。
  •     目前发现的参数就这么多,以后如有补充,后期会追加,关于Google搜索URL的分析,下篇日志中再发出。

    建议继续学习:

    1. 怎样用好Google进行搜索    (阅读:14662)
    2. 淘宝搜索:定向抓取网页技术漫谈    (阅读:8211)
    3. 简析搜索引擎中网络爬虫的搜索策略    (阅读:5989)
    4. 几种常见的基于Lucene的开源搜索解决方案对比    (阅读:4643)
    5. 用Sphinx快速搭建站内搜索功能    (阅读:4420)
    6. 基于用户行为分析的搜索引擎自动性能评价    (阅读:4353)
    7. 互联网网站的反爬虫策略浅析    (阅读:4139)
    8. 附近地点搜索初探    (阅读:4130)
    9. Xapian搜索体系结构    (阅读:4025)
    10. SEO:wordpress页面标记优化    (阅读:3622)
    QQ技术交流群:445447336,欢迎加入!
    扫一扫订阅我的微信号:IT技术博客大学习
    © 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

    京ICP备15002552号-1