标签：大模型

共 3 篇相关文章

IT 累计浏览 94

美团 LongCat 开源 General 365：树立推理评测新标尺

美团LongCat团队开源General 365，这是一个针对大语言模型通用推理能力的创新基准。当前大模型在学科推理任务如数学和编程中表现优异，但面对日常逻辑问题时却常缺乏常识，暴露了评测体系的缺陷：过度依赖专业知识记忆，而非真实逻辑推演能力。现有基准如BBH面临模板化和性能饱和问题。General 365通过365道人工原创题目及1095个扩展变体，系统覆盖复杂约束、分支枚举、时空推理等八大挑战类型，知识范围严格限定在K-12水平，以解耦推理与知识检索，纯粹评估模型的逻辑能力。基准设计强调高多样性、高挑战性，并经过严格人工质检和混合评分确保可靠性。实测26款主流模型显示，Gemini 3 Pro以62.8%准确率领先，但仅2款模型及格，揭示了模型在语义干扰和最优策略维度上的普遍短板。跨基准对比表明，模型在该基准上准确率显著下降，输出长度增加，证实其难度源于深层逻辑链条。该项目旨在树立推理评测新标尺，推动大模型向具备通用推理能力的智能体演进，填补了现有评测空白。

IT 累计浏览 118

科技爱好者周刊（第 397 期）：财富正在向 AI 集中

本期科技周刊聚焦人工智能的财富集中现象，指出AI相关产业如内存、服务器、模型公司股价飙升，社会财富快速向AI领域转移，普通人可能因物价上涨和行业资金流向而受影响。通过实验展示主流大模型（如GPT-5.4、Claude Sonnet 4.6）在医疗估算中的局限性，如食物碳水含量估计波动大且不准确，强调AI不适用于精确医疗场景。技术方面，微软宣布淘汰短信验证码，推广更安全的Passkey认证方式，使用密钥和生物识别提升登录安全；亚马逊开放供应链服务，类似AWS模式可能重塑制造业物流。文章还介绍Gaussian Splatting算法用于3D图像合成，以及多个开发工具如FFmpeg Explorer、Forgejo等。此外，涵盖GitHub Pages域名安全、ShadowRealm API、Firefox配置等话题，提供全面科技资讯和观点，讨论AI对程序员自我信心的影响。

IT 累计浏览 95

深度解析Kimi K2：当 1T 参数不再只是“大”，而是“能动手”的开放智能体

Kimi K2 是一款总参数达1.06T的混合专家模型，其核心突破在于从追求“答得好”转向“做得成”，旨在成为能实际执行任务的开放智能体。它采用稀疏激活架构，每个token仅激活32B参数，在保证强大能力的同时实现了高效推理。为训练如此庞大的模型，团队创新性地提出了MuonClip优化器，通过对Query和Key权重矩阵进行自适应缩放，从源头压制注意力分数的爆炸，确保了整个预训练过程的稳定性。该模型的“动手能力”源于系统化的Agentic数据构建。通过模拟工具调用的域工厂、多智能体协作的竞技场以及可验证的自举强化学习，生成了千万级高质量的agent轨迹数据用于后训练。在基准测试中，Kimi K2表现出色，在SWE-bench Verified（51.8%）、LiveCodeBench等代码与推理任务上大幅领先同类开源模型，其工程优化深度甚至使其在无需多次采样或专门思考模块的情况下接近早期高级推理模型的水平。 Kimi K2已以Apache-2.0协议开源，支持通过vLLM等主流框架进行本地部署，仅需单张80GB显存显卡即可运行。尽管目前在复杂推理长度控制、工具误调用和单轮大型项目生成等方面仍存在局限，但其路线图明确了未来将引入多模态等能力。Kimi K2将庞大的参数、海量的训练数据与实用的智能体能力相结合，为开发者提供了一个强大且开放的本地化智能体基座。