当用户在一个网站浏览或者搜索商品时,在大多数时间他所面对的都是商品标题+商品图片的商品信息形式。只有当这种简要的信息抓住了用户的眼球时或者达到用户的心理预期时才能引导用户进入更详细的商品详情页。这就对其中唯一的文本信息载体:商品标题包含的信息内容质量提出了要求。
我们来看两个商品标题的例子,这是分别来自淘宝网和京东商城的两条普通商品标题:
这条Title里包含了唯一确定商品的关键属性(品牌和型号)、商品性质(行货),商品促销信息(冲三冠折扣、赠品)
这条Title包含了商品的中英文品牌、型号、产品类型、容量、颜色等信息。
可以看到:作为用户了解商品信息的第一道入口,商品标题包含有丰富而优质的商品信息,能够在第一时间向用户传达商品最重要的特征。有鉴于此, 在一淘网对商品信息的处理过程中,我们对部分商品的标题进行分析分解,将其中包含的语义信息归类。然后提取出需要的语义信息,再进行进一步的产品逻辑处理。为此,我们开发了中文商品的标题信息分析(以下简称Title分析)程序。
要对Title信息分类,首先需要知道Title中都可能包含哪些类别的信息。我们把Title中的商品信息类别归纳如图1:
图1
某些语义类并没有复杂的组成形式,当某个词在title中出现就可以认为这个词属于该语义类。以品牌词为例,无论在何种情况下,当title中出现了”阿迪达斯”这个词,就可以认为它代表品牌。(当然也有例外情形,如“苹果”有可能是品牌也可能是产品类型。这就需要一些消除歧义的逻辑来补充)。对于这种语义类,我们采用离线挖掘的方式整理出词典,然后在处理过程中按照词典匹配分析。
语义类一般存在有特别的特征模式。包括组成词的词性,词形式,上下文等都满足一定的规则。利用这种模式就可以做基本的语义判断。例如 价格词的基本模式有:数词+价格量词或者价格前置词(如原价、特价)+数词(+价格) 等
实际在各语义类处理时,通常采取以上两种类型之一或者两种类型结合的方式。
Title分析识别出的商品标题信息能够为很多工作带来帮助。化妆品小样识别就是一个使用Title分析的例子。我们来看一个在一淘网中化妆品详情展示的页面(图2):
图2
可以看到,在化妆品行业中同一种商品通常都具有多种不同的规格。为了方便对比,我们识别出具体商品中的规格,并提供按规格筛选比较的功能。而小样识别就是其中最大的挑战。
化妆品小样方案主要是3部分,涉及到了Title分析对商品容量、特殊规格和赠品的识别。

