VALL-E X 可以通过仅使用未曾见过的说话者的 3 秒录音作为声学提示,合成高质量的个性化语音,即使是对于一位母语讲者,也可以在另一种语言中执行。此实现支持三种语言(英语、中文、日语)的零尝试、单语 / 跨语言文本到语音功能。
使用教程
1.上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。
2.模型将用您的音频提示相同的声音合成给定文本的语音。
3.该模型还倾向于保留您给定语音的情感和声学环境。![图片[1]-VALL_E_X语音克隆带6款模型-整合版](https://www.kaiyuanyuanma.com/wp-content/uploads/2025/06/QQ截图20250620225828.jpg)
通过网盘分享的文件:百度云下载地址_VALL_E_X语音克隆带6款模型-整合版_文件大小5.66G.rar
链接: https://pan.baidu.com/s/1T31WVUFGRelg1G-i0lGNHQ?pwd=3uf3
下载密码开会员后可见
内容看完了
© 版权声明








请登录后发表评论
注册