美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
美团开源的LongCat-Next探索了物理世界AI的统一建模路径,旨在让AI像处理语言一样原生处理图像、语音和文本。核心创新在于DiNA(离散原生自回归架构),将所有模态映射为同源的离散Token,并通过下一个Token预测范式进行统一建模,打破了传统多模态模型的拼凑式架构,实现理解与生成的对称优化。dNaViT视觉分词器支持任意分辨率图像编码,利用8层残差向量量化实现28倍像素压缩,同时保持细节保真。语义对齐完备编码器通过大规模视觉-语言监督学习高信息密度表征,结合多级RVQ减少离散化损失,确保离散Token的语义完整性。实验表明,LongCat-Next在细粒度视觉理解、图像生成和音频任务上达到或超越专用模型,如OmniDocBench和MathVista基准上表现优异,同时保持语言能力,在工具调用和代码生成上也有提升。模型开源促进社区发展,推动原生多模态智能走向更远。