专题：推理评测 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 14

美团 LongCat 开源 General 365：树立推理评测新标尺

美团LongCat团队开源General 365，这是一个针对大语言模型通用推理能力的创新基准。当前大模型在学科推理任务如数学和编程中表现优异，但面对日常逻辑问题时却常缺乏常识，暴露了评测体系的缺陷：过度依赖专业知识记忆，而非真实逻辑推演能力。现有基准如BBH面临模板化和性能饱和问题。General 365通过365道人工原创题目及1095个扩展变体，系统覆盖复杂约束、分支枚举、时空推理等八大挑战类型，知识范围严格限定在K-12水平，以解耦推理与知识检索，纯粹评估模型的逻辑能力。基准设计强调高多样性、高挑战性，并经过严格人工质检和混合评分确保可靠性。实测26款主流模型显示，Gemini 3 Pro以62.8%准确率领先，但仅2款模型及格，揭示了模型在语义干扰和最优策略维度上的普遍短板。跨基准对比表明，模型在该基准上准确率显著下降，输出长度增加，证实其难度源于深层逻辑链条。该项目旨在树立推理评测新标尺，推动大模型向具备通用推理能力的智能体演进，填补了现有评测空白。

标签：推理评测

美团 LongCat 开源 General 365：树立推理评测新标尺