标签：大语言模型

共 7 篇相关文章

IT 累计浏览 145

正式开源！美团 LongCat-2.0 同步开放国产卡推理代码

美团正式开源了万亿参数大模型LongCat-2.0。该模型总参数1.6T，平均激活约48B，专为Agentic Coding任务设计。其核心技术突破在于通过模型架构、芯片适配与部署策略的深度协同优化，实现了在显存与带宽受限的国产算力集群上的高效稳定推理。模型层面创新性地引入LongCat稀疏注意力（LSA）和N-gram Embedding，分别提升了长上下文处理效率与Token级表示能力。在芯片适配上，通过Super Kernel、Weight Prefetch及基于高速互联的KV-cache传输等技术最大化硬件利用率。部署策略则采用PD分离，通过缩小Expert-Parallel域、序列并行、KV-cache切分及异步负载均衡等方法，兼顾首Token延迟与生成速度，并支持多种推理优化特性。此次开源同步提供BF16、FP8、INT8等多精度模型权重及针对国产NPU优化的推理代码，旨在为行业提供一条可复现的技术路径，盘活存量国产算力，推动其在真实场景中的应用。

IT 累计浏览 118

ACL 2026 精选论文分享：美团履约团队前沿技术专场

美团履约团队在ACL 2026会议上分享了多项前沿AI技术研究，聚焦于强化学习优化、大语言模型推理增强及多模态交互系统构建。GeoRA方法针对基于可验证奖励的强化学习场景，通过几何感知的低秩适配避免谱塌缩，提升模型在数学和代码任务上的泛化能力。CoT-Flow框架将离散推理步骤建模为连续概率流，量化每一步的信息增益，实现高效解码和训练加速。UserLM-R1提出具备推理能力的用户模拟器，使用多奖励强化学习模拟人类策略性思维，优化Agent训练环境。Fine-Mem系统通过块级步骤奖励和证据奖励归因，精细管理长期任务中的记忆操作，提高任务成功率。DuplexOmni模型支持全双工多模态交互，实现听、看、说、想并行处理，增强人机交互的自然性与实时性。这些技术突破推动了AI基础研究，并为业务智能化应用提供支撑。

IT 累计浏览 96

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要“算得对”，更要“证得严”

LongCat-Flash-Prover是专为数学定理证明设计的大语言模型，旨在从“猜答案”转向“严谨证明”。它采用形式化语言Lean4，将证明过程拆解为自动形式化、草稿生成和证明生成三大原子能力。通过混合专家迭代框架，模型在冷启动和迭代阶段训练不同专家，并结合工具集成推理（TIR）来优化证明质量。在数据合成中，采用课程学习模式，从简单完整证明过渡到复杂引理式草稿证明，提高推理效率。模型还引入多个验证工具，如Lean4 Server、语义一致性检查和Theorem一致性，确保生成证明的语法正确性和语义一致性，防止作弊行为。实验结果表明，LongCat-Flash-Prover在MiniF2F-Test上以72次预算达到97.1%通过率，超越现有开源模型；在MathOlympiad-Bench等竞赛级任务上也取得显著进步。该模型已全面开源，不仅受到AI研究者关注，还引起了数学界的兴趣，有望成为数学研究和教育的基础设施，促进形式化数学的范式创新。

IT 累计浏览 309

科技爱好者周刊（第 398 期）：Token 费用难以负担

本期围绕 AI 编程的 Token 成本问题展开讨论。通过 OpenClaw 创始人每月消耗 6030 亿 Token、价值 130 万美元的案例，揭示了放开使用顶级 AI 模型的惊人开销。按此计算，单个程序员年费用可达数千万甚至上亿人民币，即便使用国内便宜模型也需数百万。文章指出，即便是 Uber 和微软等巨头也因费用过高而不得不限制 AI 使用，说明公司几乎必然会设置调用限制，这使得 AI 编程在大型项目中的成本远高于人工。由此得出结论：现阶段 AI 不会大规模替代程序员，除非未来 Token 费用大幅下降。此外，文章还提及了漏洞赏金计划在 AI 时代面临的新挑战。由于大模型能快速生成低质量漏洞报告，项目如 Turso 不得不终止赏金计划，这引发了对传统安全激励机制在 AI 背景下有效性的思考。其他内容包括科技动态（如气温上升导致动物增重、人工蛋壳技术）、多篇推荐文章以及一系列新发布的开发工具和资源，覆盖了从内存市场趋势到哲学思辨的广泛话题。

IT 累计浏览 112

用 AI 辅助读书

在闲暇时间重拾小说阅读后，作者发现利用AI能有效解决两大痛点：书籍推荐与语言障碍。推荐方面，通过Gemini模型列举喜爱的书籍或作者，能快速获取个性化书单，并主动探索陌生类型以拓宽阅读边界。针对英文新作中文译本匮乏的问题，作者尝试将传统逐句翻译与AI辅助结合：采用中英对照的机械直译保持信息完整，同时借助Gemini处理复杂句子的文化语境与背景知识，例如解释英文中皇帝自称“We”的特定用法。这种混合方法显著提升了英文小说的可读性。虽初期阅读速度放缓，但通过适应中英文切换与上下文理解，作者逐渐在机械直译的“准确”与AI解释的“灵活”间找到平衡。以《互惠帝国》三部曲为例，随着对系列故事框架的熟悉，阅读节奏明显加快，印证了理解作品结构能降低后续阅读门槛。最终，AI不仅作为工具弥补了翻译资源的缺口，更通过上下文解析帮助读者跨越语言与文化隔阂，在保持原著韵味的同时，让沉浸式阅读体验得以延续。

IT 累计浏览 99

理解大语言模型 - 读《图解 DeepSeek 技术》

《图解 DeepSeek 技术》以图文并茂的方式，将大语言模型的核心技术难点进行了直观化解构。作者通过阅读，梳理出三个关键概念及其个人理解。首先是缩放定律，即通过增大参数量、数据量与计算量来提升模型性能，其表现符合幂律分布，与自然界的“量变引发质变”现象类似，模型在规模达到临界点后会产生“涌现”智能。其次，为突破单纯堆砌规模的局限，研究人员引入了“深度思考”模式，让模型在生成阶段消耗更多计算资源进行类似人类“慢思考”的深度推理，从而显著提升答案质量。最后，文章阐述了蒸馏技术，它允许庞大的教师模型（如DeepSeek-R1）将其推理能力迁移给更小的学生模型，这一过程好比“师徒学习”，使小模型在有限参数下也能掌握复杂思维模式，极大提升了模型的实用性和部署效率。

IT 累计浏览 109

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

Mistral AI发布其首个纯强化学习训练的推理模型系列Magistral，核心突破在于完全摒弃了传统RLHF框架中依赖的监督微调蒸馏步骤，从基础模型出发仅通过强化学习进行优化。该方法在数学与代码推理任务上取得显著提升，例如在AIME-24数学基准上性能提升近50%。其技术核心是对GRPO算法的深度改造，关键创新包括移除KL散度计算以加速训练、通过损失归一化消除生成长度偏差、放宽信任域上限以鼓励探索，并设计了精细的多维奖励机制，涵盖格式正确性、代码执行结果、长度惩罚及语言一致性。该研究带来几个颠覆性发现：纯文本RL训练意外提升了多模态模型在视觉任务上的表现；证明了24B规模的小模型同样能通过纯RL路径获得接近蒸馏模型的性能，推翻了先前认为小模型必须依赖蒸馏的结论；并且RL习得的推理能力在数学与代码任务间展现出良好的跨领域泛化特性。Mistral同步开源了24B参数的Magistral Small模型。