IT技术博客大学习 共学习 共进步

中文商品的标题信息分析

搜索技术博客-淘宝 2012-05-22 13:30:56 浏览 2,183 次

    当用户在一个网站浏览或者搜索商品时,在大多数时间他所面对的都是商品标题+商品图片的商品信息形式。只有当这种简要的信息抓住了用户的眼球时或者达到用户的心理预期时才能引导用户进入更详细的商品详情页。这就对其中唯一的文本信息载体:商品标题包含的信息内容质量提出了要求。

    我们来看两个商品标题的例子,这是分别来自淘宝网和京东商城的两条普通商品标题:

  • 冲三冠 腾龙AF 17-50mm VC F2.8(B005)送uv包顺丰8折 大陆行货
  •     这条Title里包含了唯一确定商品的关键属性(品牌和型号)、商品性质(行货),商品促销信息(冲三冠折扣、赠品)

  • 能率(NORITZ)GQ-1680CAFE 天然气(12T)16升家用燃气快速热水器 白色
  •     这条Title包含了商品的中英文品牌、型号、产品类型、容量、颜色等信息。

        可以看到:作为用户了解商品信息的第一道入口,商品标题包含有丰富而优质的商品信息,能够在第一时间向用户传达商品最重要的特征。有鉴于此, 在一淘网对商品信息的处理过程中,我们对部分商品的标题进行分析分解,将其中包含的语义信息归类。然后提取出需要的语义信息,再进行进一步的产品逻辑处理。为此,我们开发了中文商品的标题信息分析(以下简称Title分析)程序。

  • Title中商品信息类别
  •      要对Title信息分类,首先需要知道Title中都可能包含哪些类别的信息。我们把Title中的商品信息类别归纳如图1:

    图1

  • Title分析的基本处理思路:
  • 处理的基本单元是词,我们使用了阿里巴巴自己的分词工具AliWS将商品Title切词并获取词的长度、词性、属性等信息。
  • 每一种语义类各自的识别方法包括两种基本类型:词典和特征模式。
  • 词典:
  •     某些语义类并没有复杂的组成形式,当某个词在title中出现就可以认为这个词属于该语义类。以品牌词为例,无论在何种情况下,当title中出现了”阿迪达斯”这个词,就可以认为它代表品牌。(当然也有例外情形,如“苹果”有可能是品牌也可能是产品类型。这就需要一些消除歧义的逻辑来补充)。对于这种语义类,我们采用离线挖掘的方式整理出词典,然后在处理过程中按照词典匹配分析。

  • 特征模式:
  •     语义类一般存在有特别的特征模式。包括组成词的词性,词形式,上下文等都满足一定的规则。利用这种模式就可以做基本的语义判断。例如 价格词的基本模式有:数词+价格量词或者价格前置词(如原价、特价)+数词(+价格) 等

        实际在各语义类处理时,通常采取以上两种类型之一或者两种类型结合的方式。

  • 各个语义类的处理按照优先级顺序执行,后处理的语义类依赖先处理的语义类的执行结果。当某个词已经被识别为某个语义后,就不会被再识别为其他语义。这样做的好处是:先处理模式清晰,会给其他语义类带来歧义的语义。这样剥离了大量可能会对复杂语义类造成干扰的因素,简化了其他语义类的处理。例如“日销千件”作为销量提取后,“千件”就不会再被识别为数量。“送耳机”作为赠品被提取后,“耳机”就不会再被识别为为产品类型。
  • Title分析的应用实例:化妆品小样的识别。
  • 首先是识别商品的容量。识别商品容量的方案包括:
  • 然后Title分析处理商品title和属性识别出商品容量
  • 第二是识别小样的商品,借助词表识别小样商品的方案包括:
  • 通过词典进行识别:整理小样可能的词加入特殊规格词典,比如:“小样、中样、中小样”等等,当商品标题中出现了这些词的时候,将商品识别为小样。
  • 商品标题中可能会写:“高丝 精米水凝保湿眼霜50ml送小样”,这时候如果只用词表进行识别,会将此商品错误的识别为小样商品,但实际上不是。这些会被Title分析的赠品识别过滤。
  • 最后是根据容量识别小样商品,根据容量识别小样商品的方案包括:
  • 哪些商品卖的是同一种化妆品。比如,属于同一个产品节点的商品。
  • 根据识别商品的容量和识别小样的商品,找到是小样且识别出了容量的商品,得到此化妆品产品节点的小样容量,比如“高丝 精米水凝保湿眼霜”的小样容量是6ml或者5ml。
  • 根据容量判断同类化妆品的商品是否是小样。比如对于“高丝 精米水凝保湿眼霜”的商品,将等于或者小于6ml的商品都判断为小样商品。对于没有抽取到容量但也被第二步识别到了的商品,也判断为小样商品。
  •      Title分析识别出的商品标题信息能够为很多工作带来帮助。化妆品小样识别就是一个使用Title分析的例子。我们来看一个在一淘网中化妆品详情展示的页面(图2):

    图2

        可以看到,在化妆品行业中同一种商品通常都具有多种不同的规格。为了方便对比,我们识别出具体商品中的规格,并提供按规格筛选比较的功能。而小样识别就是其中最大的挑战。

        化妆品小样方案主要是3部分,涉及到了Title分析对商品容量、特殊规格和赠品的识别。

    建议继续学习

    1. 数据分析中常用的数据模型 (阅读 7,703)
    2. 五个免费开源的数据挖掘软件 (阅读 6,342)
    3. 谈谈与数据打交道的工作 (阅读 5,222)
    4. 页面停留时间和网站停留时间详解 (阅读 5,044)
    5. 如何对统计数据进行分析 (阅读 4,981)
    6. 音乐智能推荐 (阅读 4,225)
    7. 浅析十三种常用的数据挖掘的技术 (阅读 4,204)
    8. 使用Weka进行数据挖掘 (阅读 4,123)
    9. WEB数据挖掘相关术语整理 (阅读 3,443)
    10. 如何萃取海量数据的价值 (阅读 3,283)