IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:推理评测

共 1 篇相关文章

IT 累计浏览 14

美团 LongCat 开源 General 365:树立推理评测新标尺

美团LongCat团队开源General 365,这是一个针对大语言模型通用推理能力的创新基准。当前大模型在学科推理任务如数学和编程中表现优异,但面对日常逻辑问题时却常缺乏常识,暴露了评测体系的缺陷:过度依赖专业知识记忆,而非真实逻辑推演能力。现有基准如BBH面临模板化和性能饱和问题。General 365通过365道人工原创题目及1095个扩展变体,系统覆盖复杂约束、分支枚举、时空推理等八大挑战类型,知识范围严格限定在K-12水平,以解耦推理与知识检索,纯粹评估模型的逻辑能力。基准设计强调高多样性、高挑战性,并经过严格人工质检和混合评分确保可靠性。实测26款主流模型显示,Gemini 3 Pro以62.8%准确率领先,但仅2款模型及格,揭示了模型在语义干扰和最优策略维度上的普遍短板。跨基准对比表明,模型在该基准上准确率显著下降,输出长度增加,证实其难度源于深层逻辑链条。该项目旨在树立推理评测新标尺,推动大模型向具备通用推理能力的智能体演进,填补了现有评测空白。