VALL-E X 可以通过仅使用未曾见过的语音说话者的 3 秒录音作为声学提示 ,合成高质量的克隆个性化语音,即使是模型对于一位母语讲者,也可以在另一种语言中执行 。整合免费网站源码此实现支持三种语言(英语、语音中文