技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 设计思想 --> 搜索引擎如何实现用户图片检索的需求满足

搜索引擎如何实现用户图片检索的需求满足

浏览:1560次  出处信息

一、什么是需求满足

1.1 什么是需求满足

      用户来搜索“章鱼 保罗”,就文本相关性而言,搜索引擎只要返回和“章鱼 保罗”内容相关的结果就可以了,这样用户是否满意呢?

       用户甲:听说章鱼帝挂了,来看看最新结果,怎么全是8月份的,往后翻页中…

       用户乙:今天同事们在讨论章鱼哥挂了,章鱼哥是啥?我又out了,来搜索一下章鱼帝生平事迹是啥,怎么全是最新的结果,没有章鱼哥的介绍啊,变换个query看看

       用户丙:我是铁杆球迷,看完章鱼哥,再看看足球相关的吧,鲁尼,杰拉德是否又进球了,怎么连个相关推荐都没有,还得我亲自输入。

       用户丁:找个章鱼哥的头像用一下吧,一定很拉风,怎么全是结果没有方图呢,这么扁的图怎么用啊

       用户戊:换个章鱼哥的壁纸,也许下次买彩票能发大财,咦,怎么全是小尺寸的图…

       (以上信息通过分析2010-10-27用户session得出。)

       笼统的说,用户向搜索引擎表达他的需求,搜索引擎理解用户需求,提供各不同的需求下的资源,这整个过程可统称为需求满足。简单说,就是除了基础文字相关性之外的rank工作,都属于需求满足的范畴,也就是说,提供给用户的检索结果,不仅仅要求在字面上是和用户输入的文字相关的,还要满足用户的各种不同需求。

     需求满足在rank体系中所处的位置:

1.2 为什么需要需求满足

      用户通过query表达了自己的需求,而对于大部分query来说,尤其是具有隐含需求的query,仅仅字面匹配的查询结果未必能够满足其需求。目前我们的排序系统是主要是基于文本相关性这个维度的,权值体现了query中的term与obj的相关程度,在这个体系下,相关的结果未必能够满足用户需求。

       例如前面提到的“章鱼 保罗”的例子,显然,这些需求在文本相关性这个维度下很难解决,尤其涉及到突发时效性需求,泛需求等。

1.3 需求满足包含哪些工作

      从上面的例子中,可以看出,需求满足需要解决时效性需求问题,多需求问题,相关推荐,size需求,素材类需求,浏览引导等问题。除了基础文本相关性以外的rank策略以及为了这些所做的query分析工作可认为属于需求满足的工作,另外还包括前端结果展现与用户引导浏览的工作。

       Image需求满足,按照不同的维度,可以划分为如下几个方面:

         a.需求识别

         b.资源建设

         c.需求调权

         d.结果组织与推荐

         e.用户引导交互

二、需求满足如何做

      需求满足要解决的核心问题:

         需求识别

         资源建设

         需求调权

2.1 需求的识别

2.1.1 需求的类型

      识别query有哪些需求,以及需求的强弱,是最基础的工作。首先要有需求的体系,能完备的描述各种需求,其次是如何识别这些需求,把每个query的需求对应到这个体系中去。

       基于统计的需求识别

       通过对大量的数据统计分析,可以识别出query有哪些方面的共性。可供分析的数据很多,比如用户行为数据,点击反馈,检索结果等。

       比如:搜索“章鱼 保罗 壁纸”,通过统计用户点击图片的长宽数据,发现用户点击的图片,大部分是长宽比较大的图片,而“章鱼 保罗 头像”则恰恰相反。

       又比如通过分析大量用户的检索数据,发现相当部分的用户在检索“章鱼 保罗”之后,又检索了足球相关的关键词,那么可以识别“章鱼 保罗”和足球有着很高的关联度,在给用户推荐相关搜索时,可以插入足球相关的推荐。

       专名&需求词

       判断query中包含专名或者需求词等关键词,是最直接的方式。比如“章鱼 保罗 头像”,用户在query中显示的表达了头像方面的需求,其中就包含了尺寸方面的需求,头像是需要小尺寸的图,如右图所示,这时候出一张大的图片就不符合用户需求了。

        时效性需求

       时效性需求的识别,主要是通过用户检索量的突发以及资源数的突发来判断。

       检索量的突发,可以通过累积每个query的每天的用户检索频率,用连续多天的用户检索频率,计算当天检索量和历史比较,是否有突发,进而判断是否有时效性需求的强弱。资源数方面的判断,可通过类似的方式挖掘。

       比如“章鱼 保罗”,在世界杯期间,该query,以及相关query的检索量,相比世界杯之前,用户检索量有了爆发性的增长,并且持续保持在高检索量的状态,则可认为是有时效性需求的query。

2.2 需求的满足

      识别出query有哪些需求,下一步的工作就是提供相应的资源。

2.2.1 资源的挖掘

      如何获得满足需求的资源,是需求满足的另一个核心问题。在资源上,通过某一个或者几个特征组合,能够把满足要求的资源和不满足要求的资源区分开,找到用户需求需要的资源,去掉不满足要求的资源,是主要的工作。

       内容属性特征

       对内容属性维度来说,可以分为底层的物理特征,中层的物体识别和高层的语义特征。

       对于底层的物理特征,相对比较简单,包括尺寸,颜色,格式,清晰度饱和度等,中层特征,有人与非人的,色情图片的,整车的识别,手机图片的识别等;对于高层的语义特征,包括场景的识别,图片风格的识别,情感的识别,比如是室内还是室外,是否非主流风格等,都可以作为资源筛选的特征。

       话题属性维度

       话题属性维度,是指动物,植物,帅哥,美女,军事,体育等等各种不同的话题,我们希望把图片能按照这样一个分类进行一个划分。

       比如,通过这个分类,我们可以知道哪些图片是头像类的,哪些是壁纸的,哪些是足球体育相关的。用户在搜索“章鱼 保罗”时,可以推荐足球相关的资源。

        时效性资源的收录

      时效性资源,可以很容易的通过收录时间来判断,和非时效性资源区分开。时效性资源的来源一般包括新闻站点,各大论坛,bbs等社区类网站。

2.2.2 需求调权

      明确了query的需求,挖掘了满足需求的资源,那么如何把满足需求的资源rank到前端呢?

       对于各种不同的需求维度,都有自己的调权的策略。比如“章鱼 保罗 壁纸”,我们识别出有尺寸方面的需求,那么可以把尺寸比较大的图片,进行加权;又比如时效性的需求,可以直接在前三页插入的时效性库的结果,这是因为时效性需求是一个强需求维度,简单的加权,不能保证结果调整到前三页。

       目前这种策略直接叠加的调权方式,优点是简单,直接,缺点也比较多,最大的是不可控,一个维度上的调权,会对最后结果造成多大的影响,他说的话分量有多大,不知道。

三、结语

      对于需求满足未来,要向智能化,自动化,多样化的方向持续发展。我们最终的目标是把需求满足这个方向做没了,需求挖掘,资源满足全部自动化,做到“手中无剑 心中有剑”。

By liukaikui

建议继续学习:

  1. 不懂技术的人不要对懂技术的人说这很容易实现    (阅读:4249)
  2. 关于架构的一句话,还有一个实例    (阅读:3476)
  3. 用Unix的设计思想来应对多变的需求    (阅读:3437)
  4. 百度PM万维雅:需求把握和正确决策    (阅读:2585)
  5. 需求评审与讨论问题的基本方式    (阅读:2561)
  6. 如何准确看清用户需求?    (阅读:2431)
  7. 用户的地图需求分析    (阅读:2237)
  8. 如何媒体正确的看待:产品需求文档和产品需求    (阅读:2175)
  9. 姐要的视频广告    (阅读:2121)
  10. 分析用户需求:在场景中寻找“痛点”    (阅读:1951)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1