ADASPEECH 2: ADAPTIVE TEXT TO SPEECH WITH UNTRANSCRIBED DATA
論文地址:https://arxiv.org/pdf/2104.09715v1.pdf
合成樣例:https://speechresearch.github.io/adaspeech
1、簡介
? ? 本文解決的問題是:無文本標注語音的個性化語音合成問題;作者采用的方法是在一個已經(jīng)訓練好的TTS模型基礎(chǔ)上,使用一個附加的Mel-spectrogram Encoder,其作用是用來模擬原始Phoneme Encoder的功能,當模型訓練完成后,進行個性化語音訓練時,有了這個Phoneme Encoder模擬器,只需Fine-tune 原始模型Decoder模塊的網(wǎng)絡(luò)參數(shù),就能達到個性化語音發(fā)音學習的目的。其優(yōu)點是,適用于已訓練的各種TTS模型,并且不用重新訓練原來的網(wǎng)絡(luò),另外就是使用等量的未標注數(shù)據(jù),就能達到不比現(xiàn)有的個性化學習方法差的合成效果。
2、模型方法

? ? AdaSpeech 網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,模型主要由兩個模塊組成,分別為:(1)一個通用的端到端TTS模型,本文采用的是AdaSpeech網(wǎng)絡(luò);(2)Mel-spectrogram Encoder模塊,用于無文本標注的語音進行目標發(fā)音自適應(yīng)學習;

? ? 發(fā)音自適應(yīng)學習的整個流程包括4個階段,分別為:(1)使用多人含文本標注語料訓練多人TTS模型。(2)訓練Mel Encoder,使其與原始TTS模型Phoneme Encoder對齊對齊網(wǎng)絡(luò);(3)利用目標發(fā)音人的Mel譜,F(xiàn)ine-tune Decoder 網(wǎng)絡(luò);(4)合成目標發(fā)音人語音;
????圖2展示了網(wǎng)絡(luò)訓練及推理的所有過程(其中橙色表示需要學習參數(shù)的模塊,灰色表示固定參數(shù)模塊)。
????作者使用與AdaSpeech網(wǎng)絡(luò)一樣的訓練方法訓練AdaSpeech2。其中,Mel-sepctrogram Encoder網(wǎng)絡(luò)由4個feed-forward Transformer blocks 構(gòu)成。
????對齊Mel-spectrogram Encoder和原始Phoneme Encoder網(wǎng)絡(luò)的方法其實比較簡單,就是在學習好原始TTS模型后,訓練訓練Mel-spectrogram Encoder網(wǎng)絡(luò),讓其輸出與原始Phoneme Encoder網(wǎng)絡(luò)輸出一致,作者使用的損失函數(shù)是L2損失。圖2中右上角部分的圖片展示了這個過程。? ??
3 實驗
? ? 作者使用了LibriTTS和VCTK數(shù)據(jù)集作為訓練數(shù)據(jù)和發(fā)音自適應(yīng)數(shù)據(jù)。音頻處理方法,作者使用的還是tacotron的那一套參數(shù),只是音頻采樣率改成16KHz了。作者訓練用了4個P10進行模型訓練,原始TTS模型訓練了10000步,Mel-Encoder網(wǎng)絡(luò)微調(diào)了10000步,最后的Decoder微調(diào)訓練了2000步。最終的效果可以參見鏈接:https:// speechresearch.github.io/adaspeech2/
? ? 最終的效果如表1所示。

? ? 這個工作想法上比較新穎,但是很容易理解。Mel-spectrogram模塊是否適用于所有現(xiàn)有的TTS模型中,我覺得可能得打個問號,因為并不是所有的TTS模型通過fine-tune Decoder部分就能進行發(fā)音的學習的。