从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源
美团开源LongCat-Video-Avatar 1.5,这是一个商业级数字人视频生成模型,在唇形同步、长视频稳定性、多人互动和推理效率上实现全面升级。模型通过将音频编码器从Wav2Vec2升级为Whisper-large,提升音素捕捉精度,使唇部运动更精准平滑,全身动作协调性增强,减少长视频中的抖动和身份漂移。数据体系采用多阶段处理,包括离线标注和在线验证,并构建多人、静默和情绪数据增强,提升模型在复杂场景中的泛化能力。推理优化引入DMD蒸馏技术,将生成步骤从50步压缩至8步,效率提升约15倍,并使用LoRA适配器降低显存开销。逐帧级GRPO偏好对齐进一步优化手部稳定性和动作连续性。性能评测基于EvalTalker基准,由770名评估者参与,结果显示模型在物理合理性、时间稳定性、身份一致性和音视频协调性上领先闭源系统,单人场景得分3.336,多人场景得分2.730,主体变形问题率23.1%,跳帧问题率0.8%。开源旨在促进社区共建,推动数字人视频技术从实验室走向真实应用。