IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:混合检索

共 1 篇相关文章

IT 累计浏览 3

我把775篇收藏塞进4MB向量库:一个比Karpathy Wiki更能"翻箱底"的RAG skill

作者开发了chao-rag-wiki,一个基于RAG的个人知识库skill,将775篇文章索引到4MB向量库。采用turbovec实现高效向量检索,支持混合检索模式:稠密向量处理语义相似性,BM25关键词检索确保字面匹配,通过RRF融合结果,并可选LLM重排优化排序。建索引时按chunk文本哈希去重,避免重复内容干扰。与Karpathy的llm-wiki对比,chao-rag-wiki无需AI编译,直接检索原始素材,实现零编译延迟和全量召回,适合长尾查询和专有名词;而llm-wiki将素材编译成结构化wiki文章,提供知识沉淀。文章通过实战查询验证:对于“loop engineering”,llm-wiki输出整合文章;对于“grill skill”,chao-rag-wiki成功召回冷门内容。集成方面,结合Obsidian Web Clipper自动抓取网页内容存入raw目录,定时任务自动运行增量索引,确保新内容快速可搜。该方案互补使用,兼顾全面召回和知识提炼,提升个人知识管理效率。