TTS的兩種實(shí)現(xiàn)方法

TTS.jpg

TTS(Text-To-Speech,從文本到語音)
我們比較熟悉的ASR(Automatic Speech Recognition),是將聲音轉(zhuǎn)化為文字,可類比于人類的耳朵,而TTS是將文字轉(zhuǎn)化為聲音(朗讀出來),類比于人類的嘴巴。

大家在siri等各種語音助手中聽到的聲音,都是由TTS來生成的,并不是真人在說話。

TTS的實(shí)現(xiàn)方法,主要有2種:“拼接法”和“參數(shù)法”——

1、拼接法

1)定義:從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位。
2)優(yōu)點(diǎn):語音質(zhì)量較高
3)缺點(diǎn):數(shù)據(jù)庫要求太大。一般需要幾十個(gè)小時(shí)的成品預(yù)料。企業(yè)級商用的話,需要至少5萬句,費(fèi)用成本在幾百萬元。

2、參數(shù)法

1)定義:根據(jù)統(tǒng)計(jì)模型來產(chǎn)生每時(shí)每刻的語音參數(shù)(包括基頻、共振峰頻率等),然后把這些參數(shù)轉(zhuǎn)化為波形。主要分為3個(gè)模塊:前端處理、建模和聲碼器。
前端做的事情,是把文本進(jìn)行解析,決定每個(gè)字的發(fā)音是什么,這句話用什么樣的語氣語調(diào),用什么樣的節(jié)奏來讀,哪些地方是需要強(qiáng)調(diào)的重點(diǎn),等等。常見的語氣相關(guān)的數(shù)據(jù)描述包含但不限于下面這些:韻律邊界,重音,邊界調(diào),甚至情感。 還有更多的信息甚至是難以客觀描述的,目前的算法只能暫且忽略。
注:拼接法和參數(shù)法,都有前端模塊,拼接和參數(shù)的區(qū)別主要是后端聲學(xué)建模方法的區(qū)別。
2)優(yōu)點(diǎn):數(shù)據(jù)庫要求相對較小一些。
如果只需要出聲(做demo),大概500句就可以,但是效果肯定不行。
通用TTS,一般至少需要5000句,6個(gè)小時(shí)(一般錄制800句話,需要1個(gè)小時(shí))?!獜那捌诘臏?zhǔn)備、找人、找錄音場地、錄制、數(shù)據(jù)篩選、標(biāo)注,最終成為“可以用的數(shù)據(jù)”,可能至少需要3個(gè)月。(訊飛在各方面比較成熟,用時(shí)會短很多)
個(gè)性化TTS,大多數(shù)是用“參數(shù)”方法的。(adobe、微軟也有嘗試過拼接法,不過相對參數(shù)方法來說不是太成熟,效果也并不是太通用)
3)缺點(diǎn):質(zhì)量比拼接法差一些。因?yàn)槭苤朴诎l(fā)聲算法,有損失。
因?yàn)橹饕觞c(diǎn)和難點(diǎn)就是聲碼器。聲碼器的作用是復(fù)現(xiàn)聲音信號,難在重現(xiàn)聲音細(xì)節(jié),并且讓人聽不出各種雜音、沉悶、機(jī)械感等等。目前常見的聲碼器都是對聲音信號本身作各種理論模型以及簡化假設(shè),可以說對細(xì)節(jié)的描述近似于忽略。
而DeepMind的wavenet,基本解決了聲碼器的問題。因?yàn)樗麄冎苯訉φZ音樣本進(jìn)行預(yù)測,不依賴任何發(fā)音理論模型。最后出來的音質(zhì)細(xì)節(jié)十分豐富,基本達(dá)到了與原始語音類似的音質(zhì)水準(zhǔn)(所謂質(zhì)量提高了50%,就是這里)。而且?guī)缀蹩梢詫θ我饴曇艚!D壳皐avenet的缺陷是計(jì)算量問題,速度太慢。大概100倍實(shí)時(shí)的量級,所以沒有辦法直接實(shí)用。
今年開始火起來的end-to-end的TTS建模方法,加上wavenet的聲碼器思想,才是未來TTS的發(fā)展方向。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容