標簽：VALL

陳根：精確複製任何聲音，以假亂真只要3秒

與其他通常透過操作波形合成語音的文字轉語音方法不同，VALL-E從文字和聲學提示生成離散音訊編解碼器程式碼...

時間：2023-01-12標籤：語音 VALL 合成模型波形

3秒複製任何嗓音！微軟音訊版DALL·E細思極恐，環境噪音也能模仿

但VALL·E將這一流程變成了“音素→離散音訊編碼→波形”：具體到模型設計上，VALL·E也和VQVAE類似，將音訊量化成一系列離散tokens，其中第一個量化器負責捕捉音訊內容和說話者身份特徵，後幾個量化器則負責細化訊號，使之聽起來更自然...

時間：2023-01-11標籤：語音 VALL 合成音訊模型