TTS-wiki

已嘗試

  • DeepVoice3:訓(xùn)練速度快(2*tacotron)但無法收斂,合成不出有效的聲音
  • DCTTS:訓(xùn)練速度慢,合成效果差(用文檔原配置合成英文亦是)。
  • Tacotron-2:速度一般(=tacotron),但是后接wavenet部分報錯,代碼臃腫,除了Location-attention外其他改動效果不明顯。
  • Tacotron(對應(yīng)hparams.py中):
    1. multi_mode_0是否啟用多說話人模式:將每個說話人映射到256維向量speaker_embedding,和text_embedding在最開始concat,人數(shù)根據(jù)speaker_datasets參數(shù)數(shù)量控制,speaker_proportion控制訓(xùn)練時抽取data比例。默認(rèn)每個data目錄中都含有train.txt
    2. multi_mode_1-4,use_attention_embedding是否使用不同的concat的位置,無明顯效果。
    3. use_spectral_subtract是否預(yù)處理時額外提取共振峰頻率等信息。供給配合use_harmonics_priority參數(shù)在loss中給共振峰頻段增加loss權(quán)重,針對單個效果不好的音頻有效果(百度dyy)
    4. use_freq_priority是否增加<3000hz部分的權(quán)重(降噪),無明顯效果
    5. use_sdtw_loss 是否使用soft dtw loss,訓(xùn)練太慢,無明顯效果
    6. use_pinyin是否用聲韻母進(jìn)行編碼,無明顯效果
    7. abc_mode是否增加英文音標(biāo)編碼(支持中英文)
    8. outputs_per_step控制每步輸出幀數(shù)(調(diào)整過=2,3效果不明顯)
    9. use_location是否使用location-sensitive-attention,(對齊提升效果明顯)
    10. use_regular_loss對loss進(jìn)行L2正則,無明顯效果
    11. use_zone_rnn替換decoder為zoneout-rnn,多人模型時有效果
    12. use_sos在每個句子開頭增加sos符號避免開始對齊錯誤,對齊效果提升
    13. inference_mask是否在對齊出錯情況下強制改變注意力,max_sos_wait_time,word_pron_time,min_focused_attention_value,raise_attention_to,對齊效果提升
    14. inv_pre_emphasis是否過濾合成波形時某些值(降噪),無明顯效果
    15. num_mels,num_freq合成mel維度和線性頻率刻度(調(diào)整過=160,2049效果不明顯)
    16. jinlong_vocoder,SPSI_GF_vocoder三種vocoder的選擇,默認(rèn)用GF,(音質(zhì)提升效果明顯)
    17. ctc_loss初始loss太大,無法收斂,pass。
    18. 可以適當(dāng)調(diào)節(jié)model/tacotron.py中l(wèi)earning rate(多人模型時調(diào)高,單人時調(diào)低)
    19. 可以使用evaluation.py測試對齊準(zhǔn)確率
    20. 可以使用save_model.py導(dǎo)出pb模型
    21. 嘗試gst-tacotron,可以影響發(fā)音韻律,但是效果不好,影響本身tts效果,原論文中是有多人語料。

  • Vocoder

    1. bfs18/nsynth_wavenet,蒸餾,Teacher網(wǎng)路可訓(xùn)練收斂。
      • 速度:2GPU;1.4sec/step
      • 進(jìn)展:400k-靜音部分大量噪音,pass
    2. andabi/parallel-wavenet-vocoder,蒸餾,無法收斂,pass。
    3. r9r9/wavenet_vocoder,自回歸,demo800k效果很好。
      • 速度:2GPU;0.91sec/step
      • 進(jìn)展:350k-語義不對;510k-語義對,略抖;1022k-抖改善-語義對,對接mel中;ing
    4. dhgrs/UniWaveNet,云之聲uni-wavenet,demo1000k也有電音,可訓(xùn)練收斂。
      • 速度:1GPU;1.86sec/step
      • 進(jìn)展:370k-有少量電音;繼續(xù)訓(xùn)練無改善;pass
    5. ksw0306/ClariNet,百度ClariNet,demo不知道多少步Teacher效果可以,Student有底噪。
      • 速度:1GPU;1sec/step;
      • 進(jìn)展:161k-Teacher有少量噪音;330k-Teacher噪音變??;680k-Teacher底噪無法消除;pass
    6. dhgrs/ClariNet:文檔中student-sample也有底噪。
      • 速度:2GPU;0.5sec/step;STU-2.6sec/step
      • 進(jìn)展:500k-Teacher有少量底噪;170k-Student底噪比較??;對接mel中;ing
    7. ksw0306/FloWaveNet,流生成,論文1000k效果較好
      • 速度:1GPU;1.4sec/step
      • 進(jìn)展:124k有顫音;240k-顫音明顯變小;484k-顫音基本消除,對接mel中;ing
      • 對接:集成在fw-tacotron分支中,使用preprocess預(yù)處理數(shù)據(jù)(FW所需的audio-filepath加在最后),兩個模型共用真實mel訓(xùn)練。合成todo
    8. NVIDIA/waveglow,流生成,論文580k效果較好
      • 速度:1GPU;2.8sec/step
      • 進(jìn)展:58k-質(zhì)量差;130k-質(zhì)量明顯改善,輕微抖音;250k-基本消除,效果跟FW相當(dāng),用原版tacotron-2對接mel中;ing
      • 對接:修改原版tacotron-2支持中英文編碼,todo
    9. dhgrs/waveglow,訓(xùn)練太慢,已用NVIDIA官方版,pass。

未嘗試

  • DeepVoice3:文檔中sample效果一般,音色遷移(speaker adaptation)根據(jù)issue里反饋并不可行,pass
  • WaveRNN:sample還行,todo
  • TSNetVocoder:todo
  • SING:一種樂器音調(diào)生成模型,理論上可以作為vocoder,todo

參考


數(shù)據(jù)集

kdxf-6,bb-10,bd-4,azure-3

Speaker_id 說話人
0 bb-jiaojiao
1 bb-nannan
2 bb-xiaojun
3 bb-ming
4 bb-lele
5 bb-ranran
6 bb-guozi
7 bb-ake
8 bb-xingzai
9 bb-sunwukong
10 kdxf-xiaohou
11 kdxf-xiaoru
12 kdxf-xiaoxin
13 kdxf-xiaolin
14 kdxf-xiaowanzi
15 kdxf-xiaoma
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 陳奕迅那首《全世界失眠》唱到:“一個人失眠,全世界失眠”是不是唱出了很多朋友的心聲? 是啊,某一天清晨起來刷朋友圈...
    茉莉大大閱讀 327評論 0 1
  • 看下雪秀那天,我非常興奮,因為一米二以下的兒童謝絕入場,而幸運的我早有一米四了。 開場的時候一個黑影走來走去,燈光...
    稻香奶茶閱讀 930評論 0 5
  • 一招半式學(xué)到手,這個夏天還用愁?魔都最近天氣進(jìn)入一種癲狂模式,后面高溫天氣就像吃了炫邁一樣,根本停不下來 涅的...
    姚小蝶閱讀 350評論 0 0

友情鏈接更多精彩內(nèi)容