向量数据库入坑:传统文本检索方式的降维打击,使用 Faiss 实现向量语义检索 (soulteary.com)

【简介】

在上一篇文章[《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》]中,我们有聊到如何快速入门向量检索技术,借助 Meta AI(Facebook Research)出品的 faiss 实现“最基础的文本内容相似度检索工具”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新兴技术手段。有朋友在聊天中提到,希望能够聊点更具体的,比如基于向量技术实现的语义检索到底比传统文本检索强多少,以及是否有局限性,能不能和市场上大家熟悉的技术产品进行一个简单对比。那么,本篇文章就试着从这个角度来聊聊。

点击查看原文 >>

@技术头条 2022-09-12 22:39 / 原作者微博:@soulteary / 0个评论
赞过的人: @IT技术博客大学习
要不要再学学下面的文章?
WebSocket协议详解与c++&c#实现 - 知然 (www.cnblogs.com)
这篇文章详细介绍了 WebSocket 协议的工作原理,包括握手过程、数据帧格式以及如何在 C++ 和 C# 中实现 WebSocket 通信。作者提供了一个轻量级的 WebSocket 解析库,特点是仅包含一个头文件、逻辑清晰且不依赖特定的网络接口,方便集成。此外,文章还提供了一个在线的 WebSocket 模拟客户端,便于测试和理解 WebSocket 的通信过程。

适合人群:对网络编程感兴趣的开发者,尤其是使用 C++ 或 C# 进行服务器开发,并希望深入理解 WebSocket 协议及其实现的工程师。
by @技术头条 2025-01-19 23:59 查看详情
Ansible使用Bitwarden存储Vault密码 (www.iots.vip)
本文介绍了如何使用 Bitwarden 的命令行客户端(bitwarden-cli)与 Ansible 集成,将 Ansible Vault 的密码存储在 Bitwarden 中,实现集中化管理。通过配置 vault_password_file,Ansible 可以调用存储在 Bitwarden 中的密码,避免在命令行中手动输入,提高安全性和便利性。该方法适用于需要在自动化流程中安全管理敏感信息的开发者和运维工程师。
by @技术头条 2025-01-12 11:53 查看详情
配置 harbor 及 docker 等使用 https (frytea.com)
默认情况下,Harbor不提供证书。可以在没有安全性的情况下部署Harbor,这样您就可以通过HTTP连接到它。但是,只有在没有连接到外部internet的空间隙测试或开发环境中才可以使用HTTP。在没有空间隙的环境中使用HTTP会暴露给中间人攻击。在生产环境中,始终使用HTTPS。如果启用带公证人的内容信任对所有images进行正确签名,则必须使用HTTPS。要配置HTTPS,必须创建SSL证书。您可以使用由受信任的第三方CA签名的证书,也可以使用自签名证书。本节介绍如何使用OpenSSL创建CA,以及如何使用CA签署服务器证书和客户端证书。
by @技术头条 2025-01-12 11:45 查看详情
理解数据库分片 (www.diguage.com)
这篇文章系统讲解了数据库分片的概念、优缺点以及常见的分片方法,包括基于键的分片、基于范围的分片和基于目录的分片。通过图文并茂的方式,作者详细阐述了每种分片策略的实现原理和适用场景。内容适合数据库管理员、系统架构师以及对数据库扩展性设计感兴趣的开发者,提供了深入理解数据库分片的宝贵参考。
by @技术头条 2025-01-03 00:24 查看详情
如何使用JS获取系统内存、CPU/GPU、电量等信息 (www.zhangxinxu.com)
这篇文章讲解了如何通过 JavaScript 获取设备的内存、CPU、GPU 和电池等硬件信息,详细介绍了可用的 API、兼容性及实践场景。通过代码示例和性能分析,展示了如何在前端优化中合理利用这些数据。内容适合从事前端开发的工程师以及关注性能优化和用户体验提升的技术人员,提供了实用的开发参考。
by @技术头条 2025-01-03 00:13 查看详情
基于差分隐私的检索增强生成 (paper.seebug.org)
这篇文章主要介绍了针对 PDF 格式文件的攻击方法和安全研究,内容包括 PDF 文件结构的解析、潜在攻击面的分析以及实际利用案例。文章结合了技术细节和攻击场景,对安全从业者和有兴趣了解 PDF 文件安全机制的人有一定的参考价值。
by @技术头条 2025-01-03 00:05 查看详情
编译器,靠你了!使用类型改善状态设计 (onevcat.com)
如何用类型表达状态?文章深度解析了在 Swift 中通过类型系统管理状态的实践方法,涵盖了类型安全设计、编译期检查和减少运行时错误的技巧。通过实例展示,将状态逻辑融入类型定义,提升代码的健壮性和可维护性,是探索函数式编程思想的绝佳案例!
by @技术头条 2025-01-02 23:59 查看详情
Go中秘而不宣的数据结构 BitVec, 资源优化方法之位向量 (colobu.com)
如何深入理解 Go 的内部数据结构?文章以 BitVec 为例,详细解析了其设计原理、实现方式以及在不同场景中的应用,还探讨了相关的性能优化策略和工程实践。这是一篇高质量的技术解读,为开发者学习 Go 的底层实现提供了宝贵的参考!
by @技术头条 2025-01-02 23:59 查看详情
使用开源软件搭建轻量的 NPM 私有仓库:Verdaccio (soulteary.com)
如何搭建轻量级 NPM 私有仓库?文章详细介绍了使用开源软件 Verdaccio 的实现方案,从环境准备到配置部署,再到权限管理和优化建议,完整覆盖每个步骤。同时分享了实际应用中的注意事项和性能调优经验,是团队项目管理和依赖控制的绝佳参考。值得尝试!
by @技术头条 2025-01-02 23:57 查看详情
WSL运行时遇到未知异常错误无法使用 (lisenhui.cn)
遇到 WSL 提示“发生未知错误”无法启动的问题?可能是系统更新、配置冲突或文件损坏导致。可通过重启服务、检查日志、重装 WSL 或升级内核来排查解决。保持系统与 WSL 的版本更新至关重要!
by @技术头条 2024-11-23 21:49 查看详情