IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:变分自编码

共 1 篇相关文章

IT 累计浏览 9

突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

LongCat-AudioDiT 是美团 LongCat 团队推出的端到端文本转语音模型,专注于零样本语音克隆。传统 TTS 系统依赖梅尔频谱等中间表征,导致信息损失和误差累积。该模型创新性地在波形潜空间直接生成,使用 Wav-VAE 将波形压缩为 64 维隐向量,帧率 11.7Hz,通过多级 Oobleck 块和非参数捷径实现高效下采样与稳定训练,优化目标融合多分辨率 STFT 损失等对抗损失。扩散 Transformer(DiT)在隐空间学习条件流匹配,文本编码采用 UMT5 并结合第一层和最后一层隐藏状态以增强语义对齐,同时引入 ConvNeXt V2 模块细化表征。推理机制有双重突破:强制重置提示区域隐变量解决训练-推理不匹配问题,自适应投影引导(APG)替代传统无分类器引导,通过分解引导信号避免音质过饱和。实验表明,在 Seed 基准测试中,LongCat-AudioDiT 取得当前最优的说话人相似度,例如 Seed-ZH 测试集达 0.818,同时保持高可懂度,错误率低。模型以纯波形建模证明绕过中间表征的可行性,并开源促进技术发展。