专题：变分自编码 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 9

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

LongCat-AudioDiT 是美团 LongCat 团队推出的端到端文本转语音模型，专注于零样本语音克隆。传统 TTS 系统依赖梅尔频谱等中间表征，导致信息损失和误差累积。该模型创新性地在波形潜空间直接生成，使用 Wav-VAE 将波形压缩为 64 维隐向量，帧率 11.7Hz，通过多级 Oobleck 块和非参数捷径实现高效下采样与稳定训练，优化目标融合多分辨率 STFT 损失等对抗损失。扩散 Transformer（DiT）在隐空间学习条件流匹配，文本编码采用 UMT5 并结合第一层和最后一层隐藏状态以增强语义对齐，同时引入 ConvNeXt V2 模块细化表征。推理机制有双重突破：强制重置提示区域隐变量解决训练-推理不匹配问题，自适应投影引导（APG）替代传统无分类器引导，通过分解引导信号避免音质过饱和。实验表明，在 Seed 基准测试中，LongCat-AudioDiT 取得当前最优的说话人相似度，例如 Seed-ZH 测试集达 0.818，同时保持高可懂度，错误率低。模型以纯波形建模证明绕过中间表征的可行性，并开源促进技术发展。

标签：变分自编码

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术