Longcat Audiodit

能不能让 AI 直接学会声音本身的规律，跳过中间环节？为破解这一技术瓶颈，美团 LongCat 团队正式发布 LongCat-AudioDiT。在该模型中，彻底抛弃梅尔谱等中间表示，直接在波形潜空间进行基于扩散模型的文本转语音（Text-to-Speech, TTS），从根源阻断数据转换的级联误差。阅读全文

文章列表

Tag: # Longcat Audiodit

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术