IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:Reinforcement Le

共 1 篇相关文章

IT 累计浏览 14

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

本文精选了ACL 2026会议中6篇与大语言模型相关的论文,聚焦能力评测与推理优化新范式。CoreCodeBench提出细粒度代码智能评测框架,通过仓库级任务解耦评估模型编程能力,覆盖开发、修复等场景,有效性达78.55%。SOP-Maze基于真实业务数据构建复杂标准操作流程评估,分类为侧根和主根系统,揭示模型在深度逻辑推理中的不足,易犯路线盲区和对话脆弱性错误。AMO-Bench设计50道高难度数学竞赛题,确保原创性和奥数级别,评测显示最强模型准确率仅52.4%,凸显推理提升空间。研究过度思考现象,分析推理动态并提出推理完成点检测器,减少冗余生成token。MASPO针对强化学习优化,引入软高斯门控、质量自适应限制器等方法,提升训练稳定性和样本效率。FLR将隐式推理分解为多因子注意力模块,优化生成式推荐性能。这些工作共同推动了大模型在复杂任务中的评测与优化,为未来研究提供关键方向。