标签：LLM

共 9 篇相关文章

IT 累计浏览 158

读完 Bun 用 Rust 重写：1 个人 11 天重写 50 万行代码是怎么做到的

Bun作为JavaScript运行时，原用Zig编写，但频繁遭遇内存安全bug，如use-after-free和内存泄漏，影响稳定性。作者决定用Rust重写，借助Claude Code工具和动态工作流，在11天内完成约50万行代码迁移，落地diff超100万行。Rust的编译器安全特性可编译时捕获内存错误，替代Zig的手动管理。工作流设计包括50个动态任务循环，使用对抗式code review和独立测试套件确保质量，测试套件跨平台含百万级断言。重写策略为机械式移植，先保证行为一致再优化代码。总API费用约165,000美元，但相比传统重写节省大量人年工时。经验表明，人应专注于流程设计和验收，让AI执行代码编写和review，通过修流程而非代码来提升效率。此次重写提升了Bun的性能和内存效率，并展示了LLM在大型工程重构中的潜力。

IT 累计浏览 151

LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团Longcat团队推出的VitaBench 2.0是首个面向长期动态用户建模的智能体评测基准，旨在评估大语言模型在真实生活场景中理解用户偏好和主动交互的能力。该基准包含56名虚拟用户、819个复杂任务和超2000个动态偏好，平均时间跨度达1580天，模拟用户行为的演进与漂移。其核心设计围绕三维解构：搭建人生副本以构建多年互动轨迹、引入时间标尺强调持续理解、设立记忆擂台对比智能体记忆与RAG记忆。实验显示，现有模型在长期任务中性能随时间下降，记忆策略并非总是有效；开启思考模式不必然提升个性化任务表现；AI普遍缺乏主动提问意愿，导致在信息不足时决策失误；即使直接提供用户偏好，模型应用能力仍不足，揭示了个性化作为智能体发展的关键瓶颈。VitaBench 2.0通过量化数据为开发者提供优化方向，推动智能体评测从单任务向长期陪伴演进，助力AI从工具进化为有温度的伙伴。该基准已全面开源，促进研究关注智能体的记忆和主动性。

IT 累计浏览 109

Understand-Anything：代码知识图谱

本文介绍了开源项目Understand-Anything，旨在解决当前AI编程助手（如Claude Code）在理解大型代码库时面临的效率低下和记忆缺失问题。其核心方案是构建代码知识图谱：使用Tree-sitter进行确定性结构解析，提取文件、函数、类之间的调用与依赖关系作为图骨架；再利用LLM生成语义摘要、标签和架构层分类作为血肉，从而将整个代码库转化为一个可查询、可分析的图结构。文章详细阐述了其安装配置方法（支持15个AI Agent平台）、由五个专门Agent组成的分析流水线（扫描、文件分析、架构分析、导览构建、验证）以及知识图谱的七大用途，包括交互式浏览、语义搜索、影响分析、新人导览、业务域提取等。项目还支持增量更新、知识图谱的Git版本控制共享，并通过实战案例展示了其应用。整体而言，该工具通过将AI的代码理解能力从实时低效搜索转变为预计算的知识查询，显著提升了AI Agent的代码协作效率。

IT 累计浏览 204

00 卷首语：当 Karpathy 说他半年没写一行代码

Andrej Karpathy宣布半年未亲手写代码，转而使用AI Agent驱动开发，标志软件工程进入新纪元。他提出软件3.0概念：LLM作为新型计算机，编程通过提示实现，产生‘参差不齐的智能’。行业趋势显示AI编程工具从Copilot到Claude Code快速进化，效率提升数百倍。然而，AI放大工程缺陷，Vibe Coding可能导致技术债务，而Agentic Engineering强调人类在架构、验证和责任感上的核心作用。方法论如Matt Pocock的Skills系统、Spec-Driven Development、Ralph Loop的自主循环和Garry Tan的gstack虚拟团队，共同应对验证差距。Harness Engineering聚焦Agent运行环境，确保可靠性。文章指出，当开发速度不稀缺，工程化成为壁垒，人类需提升品味、判断力和系统审美。作为卷首语，它引出本书对AI时代软件工程方法论的系统探讨。

IT 累计浏览 100

LLM 究竟是如何工作的？

本文系统解析大型语言模型（LLM）的工作原理，聚焦于transformer架构的核心机制。文本首先通过tokenization转换为整数序列，采用子词分词平衡效率与泛化能力。嵌入层将token ID映射为向量，通过训练学习语义关系，如“king”与“queen”的向量接近。位置编码（如Rotary Position Embeddings，RoPE）通过旋转Query和Key向量注入序列顺序信息，解决词序依赖并提升长上下文泛化。attention机制是关键，每个token生成Query、Key、Value向量，通过缩放点积计算相似度，softmax加权聚合信息，并利用因果掩码确保生成顺序。多头注意力并行运行多个attention头，学习语法、语义等多种关系模式，Grouped-Query Attention（GQA）优化内存使用。前馈网络独立处理每个token，通过扩展、非线性变换（如SwiGLU）和压缩存储事实知识，Mixture of Experts（MoE）扩展参数规模而不倍增计算成本。残差连接和层归一化促进梯度流动，使深层堆叠可训练。文章还提及KV缓存等优化，避免复杂数学，提供入门指南，帮助读者理解LLM内部组件及其训练与推理差异。

IT 累计浏览 119

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

本文精选了ACL 2026会议中6篇与大语言模型相关的论文，聚焦能力评测与推理优化新范式。CoreCodeBench提出细粒度代码智能评测框架，通过仓库级任务解耦评估模型编程能力，覆盖开发、修复等场景，有效性达78.55%。SOP-Maze基于真实业务数据构建复杂标准操作流程评估，分类为侧根和主根系统，揭示模型在深度逻辑推理中的不足，易犯路线盲区和对话脆弱性错误。AMO-Bench设计50道高难度数学竞赛题，确保原创性和奥数级别，评测显示最强模型准确率仅52.4%，凸显推理提升空间。研究过度思考现象，分析推理动态并提出推理完成点检测器，减少冗余生成token。MASPO针对强化学习优化，引入软高斯门控、质量自适应限制器等方法，提升训练稳定性和样本效率。FLR将隐式推理分解为多因子注意力模块，优化生成式推荐性能。这些工作共同推动了大模型在复杂任务中的评测与优化，为未来研究提供关键方向。

IT 累计浏览 91

Agent Loop 简介

LLM本身无状态，每次调用仅完成一次文本补全，但Agent Loop通过外部循环机制使其能连续执行复杂任务。该循环的核心是while结构，包含模型推理、工具调用判断、工具执行和结果回灌context四个步骤，使模型在每轮更新后的上下文中自主决策下一步动作。关键设计决策涉及终止条件（如最大步数、循环检测）、context管理（采用摘要压缩避免长度爆炸）、工具选择（原生function calling或提示词约定）、错误处理（混合策略拦截与模型自纠正）及并行优化。以开源项目learn-claude-code为例，展示了从基础loop到加入TodoWrite、子agent和context compact的演化，凸显harness代码仅是辅助模型的脚手架。Agent Loop存在局限性，如上下文窗口膨胀、工具调用幻觉、死循环和目标漂移，需通过工程组合策略缓解。随着模型能力增强，Agent Loop的未来形态可能变化，但当前仍是实现自主agent的核心架构。

IT 累计浏览 124

从「能用」到「好用」：LLM 流式响应实现方式的探索之路

在LLM应用开发中，Server-Sent Events已成为实现流式响应的事实标准，它基于HTTP协议轻量地实现实时数据推送。文章深入探讨了如何将SSE接口从基础的“能用”状态优化至“好用”层面。传统请求-响应模式需等待完整生成结果，而流式输出能实时展示模型的思考过程、工具调用及逐字生成内容，显著提升交互体验。基础实现虽简单——仅需设置正确的Content-Type和逐块写入事件流，但生产级应用需解决事件抽象、组件复用及优雅取消请求等挑战。作者通过实际编码演示，逐步拆解设计思路，引导读者掌握构建高效、可维护流式响应架构的方法，最终实现从功能演示到工程化实践的跨越。

IT 累计浏览 128

微博 × MCP：社交媒体新玩法解锁

这篇从作者的个人经历切入，讲的是如何将一个失败的AI产品蜕变为基于MCP协议的实用工具。受Twitter Personality启发，他曾开发微博性格报告，用提示工程分析用户画像，但后来被互动性更强的“评论罗伯特”类账号击败。代码先变为Agent插件，随着MCP协议爆火，最终以mcp-server-weibo形式重生——一个Model Context Protocol服务器，让大模型能直接获取微博数据。项目提供了7个工具，比如通过search_users搜索用户、get_feeds抓取动态、get_trendings获取热搜，支持uid或关键词操作，并兼容stdio和streamable-http。它能在VS Code、Cursor等客户端使用，方便开发者集成。作者认为AI更像一面镜子，从多角度观察人类，而MCP协议解锁了社交媒体分析的新玩法。这个复盘不仅展示了技术迁移的韧性，还为读者带来了一个可直接上手的工具，探索大模型与社交数据的结合。