向量数据库入坑:传统文本检索方式的降维打击,使用 Faiss 实现向量语义检索 (soulteary.com)

【简介】

在上一篇文章[《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》]中,我们有聊到如何快速入门向量检索技术,借助 Meta AI(Facebook Research)出品的 faiss 实现“最基础的文本内容相似度检索工具”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新兴技术手段。有朋友在聊天中提到,希望能够聊点更具体的,比如基于向量技术实现的语义检索到底比传统文本检索强多少,以及是否有局限性,能不能和市场上大家熟悉的技术产品进行一个简单对比。那么,本篇文章就试着从这个角度来聊聊。

点击查看全文 >>

@技术头条 2022-09-12 22:39分享 / 原作者微博:@soulteary / 0个评论
赞过的人: @IT技术博客大学习
要不要再学学下面的文章?
前端原生API实现条形码二维码的JS解析识别 (www.zhangxinxu.com)
今天才知道,原来浏览器有原生的API,可以对二维码、条形码进行解析,使用非常简单!
by @技术头条 2023-01-10 00:07 分享 查看详情
使用人性化的 Linux 防火墙 CFW 阻止 DDOS 攻击 (linux.cn)
CFW 可以防止一定程度的 DDoS 攻击,同时能控制开启或关闭 Linux 系统的 TCP/UDP 端口,很好地帮助我们解决恶意 IP 入侵的问题。但是不要做不切实际的想象,认为 CFW 可以抵御大型 DDoS 攻击。DDoS 攻击的规模往往与成本是正相关的,必要时提升网络带宽才能解决问题的根本。
by @技术头条 2023-01-04 23:42 分享 查看详情
如何在 Linux 中使用 SCP 安全地传输文件 (linux.cn)
在网络上文件传输可以通过各种不同的方式和协议来完成。远程复制文件最常用的协议是 Rsync、SCP 和 SFTP。在本文中,我们将了解什么是 SCP 以及如何在 Linux 和类 Unix 操作系统中使用 SCP 在本地和远程计算机之间安全地传输文件。
by @技术头条 2022-12-24 23:38 分享 查看详情
文字语义纠错技术探索与实践-张健 (www.52nlp.cn)
文本语义纠错的使用场景非常广泛,基本上只要涉及到写作就有文本纠错的需求。书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题。在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况,包括上市公司在公开文书上把“临时大会”写成为“临死大会”,政府文件把“报效国家”写成了“报销国家”。有关文本纠错的辅助工具能给文字工作人员带来较大的便利,对审核方面的风险也大幅降低。
by @技术头条 2022-12-24 23:38 分享 查看详情
Linux Mint 升级工具使用指南 (linux.cn)
以下是如何使用 Mint 升级工具升级到新的 Linux Mint 版本,即带有实际升级过程截图的 mintupgrade GUI。

如果你正在寻找最近发布的Linux Mint 21 Vanessa的详细升级步骤,请阅读本指南。
by @技术头条 2022-12-24 23:35 分享 查看详情
Tips: 使用CSS逻辑属性简化我们的书写 (www.zhangxinxu.com)

原本以为CSS逻辑属性只能在对称布局这样少见的场景中才有用武之地,最近发现,CSS逻辑属性还有简写的作用,这可牛逼坏了~
by @技术头条 2022-12-24 23:31 分享 查看详情
海量文本中挖掘人物关联关系核心技术介绍 (www.52nlp.cn)
在大数据时代,通过对目标人物的轨迹、通信、社交、出行、网络等多模态行为进行挖掘并建立人物画像模型,并依托人物基础特征和高层特征,实例化人物画像,支撑有关部门分析人员全方位了解目标人物的行为、活动、状态、基本属性等信息,同时能够基于人物画像指导人物活动规律分析、人物能力分析、人物动向分析等应用。
by @技术头条 2022-12-24 23:30 分享 查看详情
检索式对话系统在美团客服场景的探索与实践 (tech.meituan.com)
在传统的客服、IM等场景中,坐席需要花费大量时间回答用户的各种咨询,通常面临答案查询时间长、问题重复、时效要求高等挑战。因而,使用技术手段辅助坐席快速、准确、高效地回答用户的各类问题非常有必要。我们设计并迭代了一套基于检索式对话系统的框架,以推荐回复的方式,基于对话上文为坐席提供候选回复,提高坐席效率进而提升用户体验,在美团众多业务上均取得了显著的效果。
by @技术头条 2022-12-18 20:48 分享 查看详情
Nginx 黑魔法:使用 NGX-PHP 模块低成本实现高性能应用 (soulteary.com)
本篇文章分享一个和 Nginx 以及 PHP 有关的“黑魔法”:NGX-PHP 模块。通过这个方式,我们可以低成本的实现高性能应用,以及适合在服务器资源有限的情况下,同时体验到 Nginx 的高效以及 PHP 的灵活。如果你对 PHP 的印象还停留在“慢”,那么或许这篇文章可以帮助你打开新世界。
by @技术头条 2022-12-18 20:46 分享 查看详情
一文详解BERT模型实现NER命名实体抽取-王文广 (www.52nlp.cn)
在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。BERT是一个大规模预训练模型,它通过精心设计的掩码语言模型(Masked Language Model,MLM)来模拟人类对语言的认知,并对数十亿个词所组成的语料进行预训练而形成强大的基础语义,形成了效果卓绝的模型。通过 BERT来进行实体抽取、NER的方法是当前在NLP和知识图谱的产业化应用中最常用的方法,是效果与成本权衡下的最佳选择。本文详细讲解使用BERT来进行实体抽取,看完本文就会用当前工业界最佳的模型了。
by @技术头条 2022-12-18 20:06 分享 查看详情