专题：Reinforcement Le -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 14

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

本文精选了ACL 2026会议中6篇与大语言模型相关的论文，聚焦能力评测与推理优化新范式。CoreCodeBench提出细粒度代码智能评测框架，通过仓库级任务解耦评估模型编程能力，覆盖开发、修复等场景，有效性达78.55%。SOP-Maze基于真实业务数据构建复杂标准操作流程评估，分类为侧根和主根系统，揭示模型在深度逻辑推理中的不足，易犯路线盲区和对话脆弱性错误。AMO-Bench设计50道高难度数学竞赛题，确保原创性和奥数级别，评测显示最强模型准确率仅52.4%，凸显推理提升空间。研究过度思考现象，分析推理动态并提出推理完成点检测器，减少冗余生成token。MASPO针对强化学习优化，引入软高斯门控、质量自适应限制器等方法，提升训练稳定性和样本效率。FLR将隐式推理分解为多因子注意力模块，优化生成式推荐性能。这些工作共同推动了大模型在复杂任务中的评测与优化，为未来研究提供关键方向。

标签：Reinforcement Le

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式