個性化語音合成ADASPEECH 系列之ADASPEECH2

ADASPEECH 2: ADAPTIVE TEXT TO SPEECH WITH UNTRANSCRIBED DATA

論文地址:https://arxiv.org/pdf/2104.09715v1.pdf

合成樣例:https://speechresearch.github.io/adaspeech

1、簡介

? ? 本文解決的問題是:無文本標注語音的個性化語音合成問題;作者采用的方法是在一個已經(jīng)訓練好的TTS模型基礎(chǔ)上,使用一個附加的Mel-spectrogram Encoder,其作用是用來模擬原始Phoneme Encoder的功能,當模型訓練完成后,進行個性化語音訓練時,有了這個Phoneme Encoder模擬器,只需Fine-tune 原始模型Decoder模塊的網(wǎng)絡(luò)參數(shù),就能達到個性化語音發(fā)音學習的目的。其優(yōu)點是,適用于已訓練的各種TTS模型,并且不用重新訓練原來的網(wǎng)絡(luò),另外就是使用等量的未標注數(shù)據(jù),就能達到不比現(xiàn)有的個性化學習方法差的合成效果。

2、模型方法


圖1 AdaSpeech 2 網(wǎng)絡(luò)結(jié)構(gòu)

? ? AdaSpeech 網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,模型主要由兩個模塊組成,分別為:(1)一個通用的端到端TTS模型,本文采用的是AdaSpeech網(wǎng)絡(luò);(2)Mel-spectrogram Encoder模塊,用于無文本標注的語音進行目標發(fā)音自適應(yīng)學習;


圖2 模型訓練至推理的4個步驟

? ? 發(fā)音自適應(yīng)學習的整個流程包括4個階段,分別為:(1)使用多人含文本標注語料訓練多人TTS模型。(2)訓練Mel Encoder,使其與原始TTS模型Phoneme Encoder對齊對齊網(wǎng)絡(luò);(3)利用目標發(fā)音人的Mel譜,F(xiàn)ine-tune Decoder 網(wǎng)絡(luò);(4)合成目標發(fā)音人語音;

????圖2展示了網(wǎng)絡(luò)訓練及推理的所有過程(其中橙色表示需要學習參數(shù)的模塊,灰色表示固定參數(shù)模塊)。

????作者使用與AdaSpeech網(wǎng)絡(luò)一樣的訓練方法訓練AdaSpeech2。其中,Mel-sepctrogram Encoder網(wǎng)絡(luò)由4個feed-forward Transformer blocks 構(gòu)成。

????對齊Mel-spectrogram Encoder和原始Phoneme Encoder網(wǎng)絡(luò)的方法其實比較簡單,就是在學習好原始TTS模型后,訓練訓練Mel-spectrogram Encoder網(wǎng)絡(luò),讓其輸出與原始Phoneme Encoder網(wǎng)絡(luò)輸出一致,作者使用的損失函數(shù)是L2損失。圖2中右上角部分的圖片展示了這個過程。? ??

3 實驗

? ? 作者使用了LibriTTS和VCTK數(shù)據(jù)集作為訓練數(shù)據(jù)和發(fā)音自適應(yīng)數(shù)據(jù)。音頻處理方法,作者使用的還是tacotron的那一套參數(shù),只是音頻采樣率改成16KHz了。作者訓練用了4個P10進行模型訓練,原始TTS模型訓練了10000步,Mel-Encoder網(wǎng)絡(luò)微調(diào)了10000步,最后的Decoder微調(diào)訓練了2000步。最終的效果可以參見鏈接:https:// speechresearch.github.io/adaspeech2/

? ? 最終的效果如表1所示。

表1 AdaSpeech2 實驗結(jié)果

? ? 這個工作想法上比較新穎,但是很容易理解。Mel-spectrogram模塊是否適用于所有現(xiàn)有的TTS模型中,我覺得可能得打個問號,因為并不是所有的TTS模型通過fine-tune Decoder部分就能進行發(fā)音的學習的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容