ADASPEECH 2: ADAPTIVE TEXT TO SPEECH WITH UNTRANSCRIBED DATA

論文地址：https://arxiv.org/pdf/2104.09715v1.pdf

合成樣例：https://speechresearch.github.io/adaspeech

1、簡介

? ? 本文解決的問題是：無文本標注語音的個性化語音合成問題；作者采用的方法是在一個已經(jīng)訓練好的TTS模型基礎(chǔ)上，使用一個附加的Mel-spectrogram Encoder，其作用是用來模擬原始Phoneme Encoder的功能，當模型訓練完成后，進行個性化語音訓練時，有了這個Phoneme Encoder模擬器，只需Fine-tune 原始模型Decoder模塊的網(wǎng)絡(luò)參數(shù)，就能達到個性化語音發(fā)音學習的目的。其優(yōu)點是，適用于已訓練的各種TTS模型，并且不用重新訓練原來的網(wǎng)絡(luò)，另外就是使用等量的未標注數(shù)據(jù)，就能達到不比現(xiàn)有的個性化學習方法差的合成效果。

2、模型方法

圖1 AdaSpeech 2 網(wǎng)絡(luò)結(jié)構(gòu)

? ? AdaSpeech 網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，模型主要由兩個模塊組成，分別為：（1）一個通用的端到端TTS模型，本文采用的是AdaSpeech網(wǎng)絡(luò)；（2）Mel-spectrogram Encoder模塊，用于無文本標注的語音進行目標發(fā)音自適應(yīng)學習；

圖2 模型訓練至推理的4個步驟

? ? 發(fā)音自適應(yīng)學習的整個流程包括4個階段，分別為：（1）使用多人含文本標注語料訓練多人TTS模型。（2）訓練Mel Encoder，使其與原始TTS模型Phoneme Encoder對齊對齊網(wǎng)絡(luò)；(3)利用目標發(fā)音人的Mel譜，F(xiàn)ine-tune Decoder 網(wǎng)絡(luò)；（4）合成目標發(fā)音人語音；

????圖2展示了網(wǎng)絡(luò)訓練及推理的所有過程（其中橙色表示需要學習參數(shù)的模塊，灰色表示固定參數(shù)模塊）。

????作者使用與AdaSpeech網(wǎng)絡(luò)一樣的訓練方法訓練AdaSpeech2。其中，Mel-sepctrogram Encoder網(wǎng)絡(luò)由4個feed-forward Transformer blocks 構(gòu)成。

????對齊Mel-spectrogram Encoder和原始Phoneme Encoder網(wǎng)絡(luò)的方法其實比較簡單，就是在學習好原始TTS模型后，訓練訓練Mel-spectrogram Encoder網(wǎng)絡(luò)，讓其輸出與原始Phoneme Encoder網(wǎng)絡(luò)輸出一致，作者使用的損失函數(shù)是L2損失。圖2中右上角部分的圖片展示了這個過程。? ??

3 實驗

? ? 作者使用了LibriTTS和VCTK數(shù)據(jù)集作為訓練數(shù)據(jù)和發(fā)音自適應(yīng)數(shù)據(jù)。音頻處理方法，作者使用的還是tacotron的那一套參數(shù)，只是音頻采樣率改成16KHz了。作者訓練用了4個P10進行模型訓練，原始TTS模型訓練了10000步，Mel-Encoder網(wǎng)絡(luò)微調(diào)了10000步，最后的Decoder微調(diào)訓練了2000步。最終的效果可以參見鏈接：https:// speechresearch.github.io/adaspeech2/

? ? 最終的效果如表1所示。

表1 AdaSpeech2 實驗結(jié)果

? ? 這個工作想法上比較新穎，但是很容易理解。Mel-spectrogram模塊是否適用于所有現(xiàn)有的TTS模型中，我覺得可能得打個問號，因為并不是所有的TTS模型通過fine-tune Decoder部分就能進行發(fā)音的學習的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

個性化語音合成ADASPEECH 系列之ADASPEECH2

個性化語音合成ADASPEECH 系列之ADASPEECH2

ADASPEECH 2: ADAPTIVE TEXT TO SPEECH WITH UNTRANSCRIBED DATA

1、簡介

2、模型方法

3 實驗

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

個性化語音合成ADASPEECH 系列之ADASPEECH2

ADASPEECH 2: ADAPTIVE TEXT TO SPEECH WITH UNTRANSCRIBED DATA

1、簡介

2、模型方法

3 實驗

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1、簡介

2、模型方法