细节的 TTS 技术 Seed-TTS,制作出来的有声书可能要让喜马拉雅的很多主播失业了!支持多种语言。
目前还没看到项目代码或者测试地址,只有论文:
https://t.co/AO5Tv2wZUw
摘要
我们介绍了Seed-TTS,这是一系列大规模自回归文本转语音(TTS)模型,能够生成几乎与人类语音无法区分的语音。Seed-TTS作为语音生成的基础模型,在语音上下文学习中表现出色,在说话者相似性和自然性方面的表现与真实人类语音在客观和主观评估中相匹配。通过微调,我们在这些指标上获得了更高的主观评分。Seed-TTS在各种语音属性(如情感)上提供了卓越的可控性,并且能够为自然环境中的说话者生成高度富有表现力和多样化的语音。此外,我们提出了一种用于语音因子化的自蒸馏方法,即通过让模型自行学习和改进的方式来提高性能,以及一种增强模型鲁棒性、说话者相似性和可控性的强化学习方法。我们还展示了Seed-TTS模型的非自回归(NAR)变体,名为Seed-TTSDiT,它采用完全基于扩散的架构。与以前的基于NAR的TTS系统不同,Seed-TTSDiT不依赖于预估的音素持续时间,而是通过端到端处理进行语音生成。我们证明了这种变体在客观和主观评估中达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。