4
VoiceCraft: 文本生成任何人的语音技术
source link: https://www.jdon.com/73141.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
VoiceCraft: 文本生成任何人的语音技术
VoiceCraft 能够复制或克隆或甚至编辑你从未听过的语音。
它是一种token填充神经编解码语言模型,在有声读物、网络视频和播客等野生数据的语音编辑和零镜头文本到语音(TTS)方面都达到了最先进的性能。
VoiceCraft 采用 Transformer 解码器架构,并引入了令牌重排过程,该过程结合了因果屏蔽和延迟堆叠,以实现在现有序列中生成。
- 在语音编辑任务中,VoiceCraft 生成的经过编辑的语音在自然度方面与未经编辑的录音几乎没有区别(经人类评估);
- 对于零样本 TTS,我们的模型优于之前的 SotA 模型,包括 VALL-E 和流行的商业模型 XTTS v2。
至关重要的是,这些模型是在具有挑战性和现实的野生数据集上进行训练的,这些野生数据集包括不同的口音、说话风格、录音条件以及背景噪音和音乐,并且与其他模型和真实录音相比,我们的模型始终表现良好。
能够复制或克隆或甚至编辑你从未听过的语音,VoiceCraft 只需几秒钟的参考时间。
训练
为了训练VoiceCraft模型,您需要准备以下部分:
- 话语及其文字记录
- 使用例如 Encodec 将话语编码为代码
- 将转录文本转换为音素序列和音素集(我们将其命名为 vocab.txt)
- 清单(即元数据)
conda create -n voicecraft python=3.9.16 |
运行示例:
conda activate voicecraft |
网友讨论:
- 网友生成了特朗普的一段声音,听起来就像特朗普谈论爱泼斯坦岛的那段老喜剧视频。
- 3080 上的 8 秒太疯狂了
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK