从狄仁杰的测字占卜到一淘网的Query分析之大结局
《从狄仁杰的测字占卜到一淘网的Query分析之大结局》一文在淘宝搜索技术博客发表已经快一个月了,很多看客看了后给我反馈。当然大部分看客看完后会给一个看似褒奖实则中性的评论:屁股上挂暖壶―-有一定(腚)的水平。部分看客看完很不爽,说刚看到“美女说不够深入,不能满足欲望”之处便戛然而止,怎么没有帅哥英雄救美,满足所有想法的预期场景出现。我以前的一个同事更是直接抨击:《狄仁杰》一文就是一篇典型的太监文―-下面最重要的东西没有了。
为了满足形形色色的痴男怨女对“下面”的需求,周敢老师毅然从圣诞的节日气氛中走出来,放弃了本应该XXXX的良辰美景,与各位看官一起聊聊下面的事情。
一、测字占卜技术回顾
《从狄仁杰的测字占卜到一淘网的Query分析之大结局》一文中已经阐述了测字占卜技术的三大理论基础,第一,求卦人写的字反映其当时的状况、需求、愿望等,同理,一淘网(www.etao.com)用户在一淘网输入的查询,也反映了用户的购物、导购咨询、售后服务等需求;第二,算卦人要了解求卦人各方各面的情况才有可能占卜正确,同理,周敢老师也要苦练内功,从海量查询日志认真分析才有可能对用户的查询意图进行准确预测;第三,算卦人如果占卜正确的话,求卦人会给算卦人某种形式的利益,同理,周敢老师对一淘网用户查询的准确预测,对用户查询的属性限制的正确分析,也能有助于提高一淘网的用户体验,提升一淘网的品牌效应。
二、如何测字占卜
终于给大家传授测字占卜的秘籍了。如果有一天,周敢老师走到北京的各大地铁口、商城门口、小区入口都有人挂着招牌“狄仁杰测字”、“龚氏风水”、“敢爷八卦”等,并注明“周敢老师独家秘笈”,那本文就算发扬光大了。
2.1它山之石可以攻玉
其实搜索引擎中的查询意图预测在学术界已经出现了好几个年头了。2005年就有人在ICDM上发表文章,说利用半监督学习方法对查询自动分类【Beitzel 2005】。2007年我还在上博士的时候,大牛Broder在SIGIR上发了牛瘟(牛文),利用web知识对稀疏查询进行分类,并取得了不俗的表现【Broder 2007】。自此,国内学术界就像抱住了如来的大腿,从此中国研究界又多了一个研究的方向。也曾有某些SIGIR的把持着宣称只要是做这个方向工作并小有成果的,都可以在SIGIR上发表。
微软在IR研究领域从来就没有落后过,2009年的World Wide Web会议上微软学者提出将维基百科的几百万文章和类目知识体系利用起来,对短小的Query进行扩充,从而辅助实现Query的分类。
2.2 周敢老师苦练的内功
为了提高测字占卜的水平,狄仁杰苦练内功,不仅把《说文解字》苦看了若干遍,也记住了每个字每个偏旁每个部首的所有可能含义,还认真分析了求婚姻卦的人经常写哪些字,求财运卦的人经常写哪些字,求官运卦的人经常写哪些字,这样求卦人写什么字他都能够编出他想要说的话。
为了对一淘网用户写的字进行准确的占卜,周敢老师也苦练了很多内功。首先,周敢老师用一双慧眼看了很多一淘网的查询日志,统计了用户在一淘网最有可能输入的查询词,并对这些查询词进行了分类。
(1)用户最常输入的词
本期项目在前期淘宝词项目的基础上,新收集和整理了人名库、软件库、游戏库以及电子书籍、软件下载、游戏服务、官方网站、用户评价、组织机构、产品价格、促销信息、商务活动、问题解答、多媒体服务、产品详细、导购咨询等的提示词库。目前词库详细情况如下表所示:
词项类型 | 详细词项类型 |
类目词 | |
产品类型词 | |
品牌词 | |
扩展品牌词 | |
型号词 | |
促销词 | 质量促销词、信誉促销词、销量促销词、价格促销词、时间促销词 |
时间词 | 季节词、中外节日词、中国节气、年份词、月份词 |
地域词 | 国家或地区名称词、世界重要城市词、中国地区名称词 |
人名词 | 体育明星、华语男歌手、华语女歌手、日韩男歌手、日韩女歌手、欧美女歌手、欧美男歌手 |
提示词 | 机构提示词、网站提示词、价格提示词、商务活动提示词、疑问提示词、电子书籍提示词、软件提示词、多媒体提示词 |
属性词 | 材质、功效、适用人群、颜色、电影名称、电视名称、综艺节目名称、动漫名称、电子书籍名称、软件名称词、游戏名称词 |
(2)电子商务常见查询意图
在《从狄仁杰的测字占卜到一淘网的Query分析之大结局》一文也已经提到,常见的电子商务查询意图有:产品购买、电子书籍、软件下载、游戏服务、官方网站、用户评价、组织机构、产品价格、促销信息、商务活动、问题解答、多媒体服务、产品详细、导购咨询、书籍购买等15类。前文已有叙述,这里不再详述。
2.3 总体分类框架
系统的整体框图如下所示,对用户输入的查询,根据淘宝词库中每一个查询意图可能的提示词和内容词,计算每一个查询意图的概率,得出查询为每一个意图的概率后,对最终结果给一个综合打分,给出最终的每一个查询的概率,最后根据每一个查询的概率给出查询的意图。
2.4 各查询意图的可能特征词
每个查询意图都有很多促发词,称为该查询意图的特征词。例如产品购买型查询的特征词包括产品购买词和产品购买提示词。下面列出常见的查询意图的特征词(为方便大家的理解,把上文中对各查询意图的定义和举例也同时给出)。
查询意图类型 | 含义 |
产品购买 | 用户查询中有明确的产品购买需求或意愿
举例:oppo音乐手机、成人用品、九阳豆浆机、2010淘宝流行女装 识别:一般含有产品类型词、品牌词、型号词等 |
电子书籍 | 用户查询中表明用户有下载、购买电子书籍的需要或意愿
举例:刑法全文、鬼吹灯txt全集下载、武装风暴最新章节等 识别:一般包含全文、最新章节等提示词,周敢老师也整理了常见的电子书籍名称词典 |
软件下载 | 用户查询中表明用户有了解、下载、购买软件的需要或意愿
举例:手机主题免费下载、everest ultimate 汉化绿色版 识别:一般包含下载、绿色版、汉化版等提示词,周敢老师也整理常见的软件名称词典 |
游戏服务 | 用户查询中表明用户有了解、下载、购买游戏及游戏相关的副产品的需要或意愿
举例:传奇私服、植物大战僵尸英文版 识别:一般包含私服、下载、游戏等提示词,周敢老师也整理了常见的游戏名称词典 |
官方网站 | 用户查询中表明用户有了解、登陆某个官方站点的需要或意愿
举例:三星显示器官网、中国灵异网站 识别:一般包含官网、网站、信息网等提示词,周敢老师也整理了常见的网站及其域名词典,另外也整理了常见的品牌官网,当查询中包含品牌词时系统也给出相应的官方网站 |
用户评价 | 用户查询中表明用户有了解、其他用户对某个产品的评价的需要或意愿
举例:左旋肉碱的减肥评价、什么卸妆油好用 识别:一般包含评价、用处、好用吗等提示词 |
组织机构 | 用户查询中表明用户有了解某个组织、机构、公司等的需要或意愿
举例:用友软件公司、广大环球家具超市 识别:一般包含公司、超市、俱乐部等提示词 |
产品价格 | 用户查询中表明用户有了解特定产品价格的需要或意愿
举例:长寿烟价格、锐步鞋报价 识别:一般包含价格、报价等提示词,或类似2000元的货币词项 |
促销信息 | 用户查询中表明用户有了解特定促销信息的需要或意愿
举例:北京十一商场打折、特价机票、皇冠店铺 识别:一般包含打折、特价、秒杀等促销词 |
商务活动 | 用户查询中表明用户有了解关于招商、加盟、求购、供应等商务活动信息的需要或意愿
举例:招商加盟、童鞋批发、求购金浪KN-S1005GM 识别:一般包含加盟、批发等提示词 |
问题解答 | 用户查询中表明用户有了解、获取某个特定问题答案的需要或意愿
举例:孕妇可以吃桔子吗、中国最有钱的人是谁、七夕送什么给男朋友 识别:一般包含吗、谁、什么等疑问提示词 |
多媒体服务 | 用户查询中表明用户有浏览、下载、购买特定图片、音频、视频文件的需要或意愿
举例:孟茜图片、第四色视频、鬼步舞背景音乐 识别:一般包含图片、视频、音乐等提示词,周敢老师也整理了常见的电视剧名称、电影名称、综艺节目名称、动漫名称等 |
产品详细 | 用户已经基本确定所需要的产品,想查询该具体产品的详细描述信息
举例:松下328传真机参数、烟雨斜阳剧情介绍 识别:一般包含参数、介绍、详细信息等提示词 |
导购咨询 | 用户查询没有明确的产品购买意图,希望系统给出购买的信息或指导
举例:2岁儿童零食、刘德华代言的手机、十大国产音乐手机 识别:一般包含代言、十大等提示词 |
书籍购买 | 用户查询表明用户有了解、获取、购买特定书籍的需要或意愿
举例:中华成语故事、营销新手入门指南、现代信息检索 识别:周敢老师整理了常见的书籍名称词典 |
三、周敢老师目前的测字占卜水平
本次分别从百度查询日志、谷歌查询日志、一淘查询日志分别随机挑选了500个Query,对Query意图预测进行了人工检验。
3.1 意图分布
3个测试语料在各查询意图上的识别结果分布如下图所示。可以大致看出:一淘网查询绝大部分是产品购买型,少部分是官方网站;百度的查询大部分是官方网站型,另外还有部分是电子书籍、书籍购买、产品购买;谷歌的查询集中在官方网站,另外还有部分产品购买、书籍购买。
3.2 准确率分布
各查询的准确率如下图所示。可以大致看出,电子书籍、软件下载、游戏服务、组织机构、产品价格、促销信息、商务活动、问题解答、多媒体服务等的准确率都非常高,一淘查询的产品购买准确率非常高。但是百度查询和谷歌查询产品购买型识别准确率比较低,这主要是由于百度和谷歌的查询并非集中于电子商务活动,而我们整理的词典为电子商务词典。
3.3 性能
根据QA给出的性能测试数据,每秒大约处理query数量如下:
平均长度 | 处理速度 | |
平均性能 | 15.20字节 | 729.8条每秒 |
百度日志 | 15.02字节 | 857.5条每秒 |
一淘日志 | 13.99字节 | 1126.79条每秒 |
谷歌日志 | 16.09字节 | 548.76条每秒 |
3.4 意图预测能力分析
在三个语料的召回率分别入下表所示,当然本来就有非常多的查询根本无法纳入到我们目前的意图体系,例如【国庆放假通知】:
召回查询数量 | 召回率 | |
百度日志 | 393 | 78.6% |
一淘日志 | 474 | 94.8% |
谷歌日志 | 389 | 77.8% |
四、将来的工作
查询意图预测的工作还非常初级,将来还有很多工作要做。狄仁杰会在不断的测字占卜的过程中不断的提高自己的测字占卜水平,一淘网的查询意图预测也要在不断的预测过程中逐步改善预测结果准确率。
用户的点击序列将有助于进一步提高查询意图的预测水平。例如,用户A输入【诺基亚 N95】,假设我们系统不能识别诺基亚为品牌,N95为型号,则有可能把该查询的意图预测错误。在这种情况下,如果用户A点击了商品购买Comb的结果,则很可能给我们一个暗示,【诺基亚 N95】查询很可能是产品购买型查询。得到这个信息后,当下一个用户再输入【诺基亚 N95】查询时,我们就可以准确的预测该查询为产品购买型意图。
建议继续学习:
- 怎样用好Google进行搜索 (阅读:14663)
- 淘宝搜索:定向抓取网页技术漫谈 (阅读:8212)
- 简析搜索引擎中网络爬虫的搜索策略 (阅读:5990)
- 几种常见的基于Lucene的开源搜索解决方案对比 (阅读:4645)
- 用Sphinx快速搭建站内搜索功能 (阅读:4420)
- 基于用户行为分析的搜索引擎自动性能评价 (阅读:4354)
- 互联网网站的反爬虫策略浅析 (阅读:4139)
- 附近地点搜索初探 (阅读:4131)
- 百度搜索URL参数解析 (阅读:4064)
- Xapian搜索体系结构 (阅读:4026)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:周敢 来源: 搜索技术博客-淘宝
- 标签: 搜索
- 发布时间:2011-01-05 22:26:37
- [55] Oracle MTS模式下 进程地址与会话信
- [55] IOS安全–浅谈关于IOS加固的几种方法
- [54] 如何拿下简短的域名
- [53] 图书馆的世界纪录
- [53] android 开发入门
- [52] Go Reflect 性能
- [49] 【社会化设计】自我(self)部分――欢迎区
- [49] 读书笔记-壹百度:百度十年千倍的29条法则
- [38] 程序员技术练级攻略
- [32] 视觉调整-设计师 vs. 逻辑