向量数据库入坑:传统文本检索方式的降维打击,使用 Faiss 实现向量语义检索 (soulteary.com)

【简介】

在上一篇文章[《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》]中,我们有聊到如何快速入门向量检索技术,借助 Meta AI(Facebook Research)出品的 faiss 实现“最基础的文本内容相似度检索工具”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新兴技术手段。有朋友在聊天中提到,希望能够聊点更具体的,比如基于向量技术实现的语义检索到底比传统文本检索强多少,以及是否有局限性,能不能和市场上大家熟悉的技术产品进行一个简单对比。那么,本篇文章就试着从这个角度来聊聊。

点击查看全文 >>

@技术头条 2022-09-12 22:39分享 / 原作者微博:@soulteary / 0个评论
赞过的人: IT技术博客大学习
要不要再学学下面的文章?
ARouter 迁移到 TheRouter 使用感受 (juejin.cn)
之前项目中一直用的是 ARouter,但是一直很卡,特意用adb查了一下ARouter的初始化用了131ms。最近发现货拉拉开源了一套更先进的路由框架 TheRouter,还宣传能无缝切换,趁着中秋放假就赶紧拿来试了一下,真香!!
by @kymjs张涛 2022-09-13 10:42 分享 查看详情
基于AI算法的数据库异常监测系统的设计与实现 (tech.meituan.com)
美团数据库平台研发组,面临日益急迫的数据库异常发现需求,为了更加快速、智能地发现、定位和止损,我们开发了基于AI算法的数据库异常检测服务。本文从特征分析、算法选型、模型训练与实时检测等维度介绍了我们的一些实践和思考,希望为从事相关工作的同学带来一些启发或者帮助。
by @技术头条 2022-09-12 22:41 分享 查看详情
与日俱进,在 Go 1.20 中这种高效转换的方式又变了 (colobu.com)
在 Go 1.19 的开发中, string.SliceHeader和string.StringHeader经历了一个生死存亡的争斗,这两个类型一度被标记为弃用(deprecated),但是这两个类型经常用在 slice of byte 和 string 高效互转的场景中,如果被标记为弃用,但是目前还没有可替代的方法,所以这两个类型又把弃用标记去掉了,如无意外,它们也会在 Go 1.20 再次被标记为弃用。
by @技术头条 2022-09-12 22:38 分享 查看详情
Android DeepLink介绍与使用 (cloud.tencent.com)
前段时间公司让调研一下DeepLink,说以后会用到,之前看了很久,并做了个demo,现整理一下,方便以后查阅,如果有幸帮助到其他人就更好了。
by @shengting 2022-09-07 14:30 分享 查看详情
向量数据库入坑指南:聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss (soulteary.com)
我们日常使用的各种 APP 中的许多功能,都离不开相似度检索技术。比如一个接一个的新闻和视频推荐、各种常见的对话机器人、保护我们日常账号安全的风控系统、能够用哼唱来找到歌曲的听歌识曲,甚至就连外卖配送的最佳路线选择也都有着它的身影。相信很多同学是第一次听说它,或者只知道它的大名,而不知该如何使用它。本篇文章,我们就来聊聊 faiss,分享这个“黑科技”是如何发挥神奇的“魔法”的。
by @技术头条 2022-09-03 23:31 分享 查看详情
使用上下游思维实现系统解耦 (insights.thoughtworks.cn)
本文将从服务间上下游的思维来讨论如何在系统架构演进过程中,持续的保持服务间的松耦合,实现解耦的目标。
by @Thoughtworks 2022-09-01 15:00 分享 查看详情
JS replaceAll 和 matchAll 使用指南不指北 (www.zhangxinxu.com)

介绍两个比较新的都带有 all 字样的 JS API,replaceAll 和 matchAll,增强了传统的 replace 和 match 方法的能力,看看自己项目中是不是可以用用。
by @技术头条 2022-08-31 23:25 分享 查看详情
借助 Docker 来搭 Nginx 的积木:快速实现高性能二维码服务 (soulteary.com)
本篇文章,依旧是聊聊如何 “使用 Nginx 和 Docker 来偷懒”。以生成我们常见的二维码为例,聊聊 Nginx 在日常业务中,除了做接入层业务之外的应用。本篇文章中,我们将侧重聊聊更通用的,在容器场景下借助 Docker 的预构建、多阶段构建等能力,来帮助 Nginx 进行“搭积木”的玩法,快速实现某个传统业务。
by @技术头条 2022-08-31 23:21 分享 查看详情
如何在 Linux 上使用 Bash 自动化任务 (linux.cn)
通过 Bash 命令行进行自动化任务是极好的一种方式。不论你使用运行在服务器上的 Linux 进行管理日志文件或其他文件,还是你在个人电脑上整理文件以使桌面保持整洁,使用 Bash 的自动化功能会使你的工作变得更轻松。
by @技术头条 2022-08-31 23:20 分享 查看详情
Java线程池实现原理及其在美团业务中的实践 (tech.meituan.com)
本文开篇简述线程池概念和用途,接着结合线程池的源码,帮助读者领略线程池的设计思路,最后回归实践,通过案例讲述使用线程池遇到的问题,并给出了一种动态化线程池解决方案。
by @技术头条 2022-08-31 23:16 分享 查看详情