专题：唇形同步 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 9

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团开源LongCat-Video-Avatar 1.5，这是一个商业级数字人视频生成模型，在唇形同步、长视频稳定性、多人互动和推理效率上实现全面升级。模型通过将音频编码器从Wav2Vec2升级为Whisper-large，提升音素捕捉精度，使唇部运动更精准平滑，全身动作协调性增强，减少长视频中的抖动和身份漂移。数据体系采用多阶段处理，包括离线标注和在线验证，并构建多人、静默和情绪数据增强，提升模型在复杂场景中的泛化能力。推理优化引入DMD蒸馏技术，将生成步骤从50步压缩至8步，效率提升约15倍，并使用LoRA适配器降低显存开销。逐帧级GRPO偏好对齐进一步优化手部稳定性和动作连续性。性能评测基于EvalTalker基准，由770名评估者参与，结果显示模型在物理合理性、时间稳定性、身份一致性和音视频协调性上领先闭源系统，单人场景得分3.336，多人场景得分2.730，主体变形问题率23.1%，跳帧问题率0.8%。开源旨在促进社区共建，推动数字人视频技术从实验室走向真实应用。

标签：唇形同步

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源