VALL-E X 可以通過僅使用未曾見過的說話者的 3 秒錄音作為聲學(xué)提示,合成高質(zhì)量的個性化語音,即使是對于一位母語講者,也可以在另一種語言中執(zhí)行。此實現(xiàn)支持三種語言(英語、中文、日語)的零嘗試、單語 / 跨語言文本到語音功能。
上傳一個持續(xù) 3 到 10 秒的語音作為音頻提示,并鍵入您想要合成的文本。
模型將用您的音頻提示相同的聲音合成給定文本的語音。
該模型還傾向于保留您給定語音的情感和聲學(xué)環(huán)境。
下載地址:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
THE END