美团搜索中NER技术的探索与实践 (tech.meituan.com)

【简介】

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。在美团搜索场景下,NER是深度查询理解(Deep Query Understanding,简称 DQU)的底层基础信号,主要应用于搜索召回、用户意图识别、实体链接等环节,NER信号的质量,直接影响到用户的搜索体验。

下面将简述一下实体识别在搜索召回中的应用。在O2O搜索中,对商家POI的描述是商家名称、地址、品类等多个互相之间相关性并不高的文本域。如果对O2O搜索引擎也采用全部文本域命中求交的方式,就可能会产生大量的误召回。我们的解决方法如下图1所示,让特定的查询只在特定的文本域做倒排检索,我们称之为“结构化召回”,可保证召回商家的强相关性。举例来说,对于“海底捞”这样的请求,有些商家地址会描述为“海底捞附近几百米”,若采用全文本域检索这些商家就会被召回,显然这并不是用户想要的。而结构化召回基于NER将“海底捞”识别为商家,然后只在商家名相关文本域检索,从而只召回海底捞品牌商家,精准地满足了用户需求。

点击查看全文 >>

@技术头条 2021-05-28 22:52分享 / 0个评论
赞过的人: IT技术博客大学习
要不要再学学下面的文章?
Data Mesh:除了技术,也关乎所有权与沟通力 (insights.thoughtworks.cn)
Data Mesh引入了新的组织视角,并且它与特定技术无关。 其关键思想是将领域驱动设计(DDD)和产品思维,应用到数据和分析领域的难题中。
by @Thoughtworks 2021-09-23 11:10 分享 查看详情
微前端拆分实践 (teobler.com)
我们的项目整体来看算得上一个比较大型的项目,整个项目规划完成后有 17 条业务线。但是在刚起项目的时候由于种种原因并没有考虑周全,将项目当成一个普通的前端项目来解决,在第一期项目结束,第一条业务上线后,我们紧接着开始了第二和第三条业务线的开发,紧接着我们就遇到了一些问题.....
by @Teobler 2021-09-14 09:38 分享 查看详情
使用函数式语言实践DDD (insights.thoughtworks.cn)
本文介绍一种常见的函数式架构,特别是如何通过函数式语言实现DDD,进而利用函数式组合的特性,创建函数pipeline。
by @Thoughtworks 2021-09-09 10:34 分享 查看详情
产品经理需不需要懂技术? (insights.thoughtworks.cn)
一个合格的产品经理,需要理解基础的技术知识 + 把握用户需求。而对于不同类型的产品经理来说,所需要懂技术的程度也是不一样的。
by @Thoughtworks 2021-08-02 10:29 分享 查看详情
记一次Vue3.0技术分享会 (mp.weixin.qq.com)
记录了我在组内的技术分享, 有同样需求的同学可以参考一下
分享全程下来时间大约1小时
by @code小生 2021-07-11 22:50 分享 查看详情
MySQL 中存储时间的最佳实践 (zhuanlan.zhihu.com)
平时开发中经常需要记录时间,比如用于记录某条记录的创建时间以及修改时间。在数据库中存储时间的方式有很多种,比如 MySQL 本身就提供了日期类型,比如 DATETIME,TIMESTAMEP 等,我们也可以直接存储时间戳为 INT 类型,也有人直接将时间存储为字符串类型。

那么到底哪种存储时间的方式更好呢?
by @又拍云 2021-07-09 15:50 分享 查看详情
服务 24 亿级用户 App 的大前端实践! (mp.weixin.qq.com)
服务全球几十亿用户,茄子科技如何提升 App 的用户体验?怎样解决 App 的崩溃问题?如何应对海外复杂的网络问题?...... 针对上述问题,InfoQ 记者采访了茄子科技前端负责人。
by @code小生 2021-07-05 00:01 分享 查看详情
私有化仓库的 GO 模块使用实践 (zhuanlan.zhihu.com)
GO 在 1.11 版本开始引入 Module 的特性;1.13 版本引入 Module 校验和检查,加强了 Module 的安全性;现在的 1.16 版本已经默认使用 Module 模式。日前 GO 团队在博客上表明,将在 1.17 版本时删除对 GOPATH 的支持……
by @又拍云 2021-07-02 14:28 分享 查看详情
万字详解!Git入门最佳实践 (mp.weixin.qq.com)
Git 是一种分布式版本控制系统,它可以不受网络连接的限制,加上其它众多优点,目前已经成为程序开发人员做项目版本管理时的首选,非开发人员也可以用 Git 来做自己的文档版本管理工具。
by @code小生 2021-06-27 13:13 分享 查看详情
实践之后,我们来谈谈如何做好威胁建模 (tech.meituan.com)
对美团安全团队来说,引入领先的安全技术设计能力,构建全方位、多维度智能防御体系,是我们不懈追求的目标。美团有众多基础设施,核心业务系统也需要以成熟的方法论进行威胁评审。本文将着重分享威胁建模是如何帮助美团安全团队评估、发现大量安全设计的风险,以及互联网企业应该如何大范围地实施威胁建模并完整地进行落地。
by @技术头条 2021-06-13 23:17 分享 查看详情