专题：语义对齐 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 11

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团开源的LongCat-Next探索了物理世界AI的统一建模路径，旨在让AI像处理语言一样原生处理图像、语音和文本。核心创新在于DiNA（离散原生自回归架构），将所有模态映射为同源的离散Token，并通过下一个Token预测范式进行统一建模，打破了传统多模态模型的拼凑式架构，实现理解与生成的对称优化。dNaViT视觉分词器支持任意分辨率图像编码，利用8层残差向量量化实现28倍像素压缩，同时保持细节保真。语义对齐完备编码器通过大规模视觉-语言监督学习高信息密度表征，结合多级RVQ减少离散化损失，确保离散Token的语义完整性。实验表明，LongCat-Next在细粒度视觉理解、图像生成和音频任务上达到或超越专用模型，如OmniDocBench和MathVista基准上表现优异，同时保持语言能力，在工具调用和代码生成上也有提升。模型开源促进社区发展，推动原生多模态智能走向更远。

标签：语义对齐

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语