語音合成學(xué)習(xí)(一)學(xué)習(xí)筆記
我們先要弄清楚一個(gè)問題:什么是語音,語音是由哪些成分構(gòu)成的?
語音就是人說的話,它的記錄形式是一段一段的波形。
語音有三大關(guān)鍵成分:信息音色和韻律。如果能將語音的成分充分自由地拆解和組合,將是對(duì)語音的巨大解放,未來將有無限的想象發(fā)展空間。
語音信息是指說話人說了什么內(nèi)容。
語音的音色是指這段話是誰說的,有一句俗語:未見其人先聞其聲。
韻律就是我們說話的方式,說話時(shí)我們聲音的高低、快慢等。借用某位非著名相聲演員的話來說:人人都會(huì)說話,為什么你還要花錢來聽我說話?
一、介紹
定義
語音合成(text to speech),簡(jiǎn)稱 TTS。將文字轉(zhuǎn)化為語音的一種技術(shù),類似于人類的嘴巴,通過不同的音色說出想表達(dá)的內(nèi)容。將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。
合成過程
主要包括:獲取輸入的文本→語言處理→韻律處理→聲學(xué)處理→輸出音頻文件。其中語音識(shí)別主要是語言處理、韻律處理、聲學(xué)處理三個(gè)階段的操作。
- 語言處理
該階段主要是模擬人類對(duì)大自然語言理解的過程,主要工作有輸入文本分析、分詞、語義分析,目的是讓計(jì)算機(jī)能夠盡可能準(zhǔn)確理解輸入文本的含義并為后面的環(huán)節(jié)做準(zhǔn)備。
- 韻律處理
主要是為合成的語音規(guī)劃出音高、音長(zhǎng)、音強(qiáng)等語音特征,目的是為了讓合成的語音能表達(dá)確切的語意,使得輸出的. 音頻文件更符合實(shí)際。
- 聲學(xué)處理
這個(gè)階段主要是把前兩個(gè)階段處理結(jié)果合成最終的音頻文件。
二、應(yīng)用場(chǎng)景
-
熱門研究方向
- 語音轉(zhuǎn)換:說話人轉(zhuǎn)換、語音到歌唱轉(zhuǎn)換、情感轉(zhuǎn)換、口音轉(zhuǎn)換等;
- 歌唱合成:文本到歌唱的轉(zhuǎn)換;
- AI虛擬人:可視化語音合成的技術(shù),現(xiàn)在熱門的元宇宙就依賴語音合成技術(shù);
-
應(yīng)用方向
- 語音交互:機(jī)器人領(lǐng)域、智能車;
- 內(nèi)容生成:有聲讀物,微信聽書等;
- 輔助功能:對(duì)障礙人士起到輔助功能,能夠讓他們發(fā)聲;
三、技術(shù)原理
在語音合成技術(shù)中,主要分為語言分析部分和聲學(xué)系統(tǒng)部分,也稱為前端部分和后端部分,語言分析部分主要是根據(jù)輸入的文字信息進(jìn)行分析,生成對(duì)應(yīng)的語言學(xué)規(guī)格書,想好該怎么讀;聲學(xué)系統(tǒng)部分主要是根據(jù)語音分析部分提供的語音學(xué)規(guī)格書,生成對(duì)應(yīng)的音頻,實(shí)現(xiàn)發(fā)聲的功能。

文本前端任務(wù)
- 文本結(jié)構(gòu)與語種判斷
當(dāng)需要合成的文本輸入后,先要判斷是什么語種,例如中文,英文,藏語,維語等,再根據(jù)對(duì)應(yīng)語種的語法規(guī)則,把整段文字切分為單個(gè)的句子,并將切分好的句子傳到后面的處理模塊。
- 文本標(biāo)準(zhǔn)化
在輸入需要合成的文本中,有阿拉伯?dāng)?shù)字或字母,需要轉(zhuǎn)化為文字。根據(jù)設(shè)置好的規(guī)則,使合成文本標(biāo)準(zhǔn)化。例如, “請(qǐng)問您是尾號(hào)為8967的機(jī)主嗎?” “8967”為阿拉伯?dāng)?shù)字,需要轉(zhuǎn)化為漢字“八九六七”,這樣便于進(jìn)行文字標(biāo)音等后續(xù)的工作;再如,對(duì)于數(shù)字的讀法,剛才的“8967“為什么沒有轉(zhuǎn)化為”八千九百六十七“呢?因?yàn)樵谖谋緲?biāo)準(zhǔn)化的規(guī)則中,設(shè)定了”尾號(hào)為+數(shù)字“的格式規(guī)則,這種情況下數(shù)字按照這種方式播報(bào)。這就是文本標(biāo)準(zhǔn)化中設(shè)置的規(guī)則。
- 文本轉(zhuǎn)音素
在漢語的語音合成中,基本上是以拼音對(duì)文字標(biāo)注的,所以我們需要把文字轉(zhuǎn)化為相對(duì)應(yīng)的拼音,但是有些字是多音字,怎么區(qū)分當(dāng)前是哪個(gè)讀音,就需要通過分詞,詞性句法分析,判斷當(dāng)前是哪個(gè)讀音,并且是幾聲的音調(diào)。
例如,“南京市長(zhǎng) 江大橋”為“nan2 jing1 shi4 zhang3 jiang1 da4 qiao2”或者“南京市 長(zhǎng)江大橋”“nan2 jing1 shi4 chang2 jiang1 da4 qiao3”。
- 句讀韻律預(yù)測(cè)
人類在語言表達(dá)的時(shí)候總是附帶著語氣與感情,TTS合成的音頻是為了模仿真實(shí)的人聲,所以需要對(duì)文本進(jìn)行韻律預(yù)測(cè),什么地方需要停頓,停頓多久,哪個(gè)字或者詞語需要重讀,哪個(gè)詞需要輕讀等,實(shí)現(xiàn)聲音的高低曲折,抑揚(yáng)頓挫。
聲學(xué)系統(tǒng)處理
聲學(xué)系統(tǒng)部分目前主要有三種技術(shù)實(shí)現(xiàn)方式,分別為:波形拼接,參數(shù)合成以及端到端的語音合成技術(shù)。
- 波形拼接語音合成
通過前期錄制大量的音頻,盡可能全的覆蓋所有的音節(jié)音素,基于統(tǒng)計(jì)規(guī)則的大語料庫(kù)拼接成對(duì)應(yīng)的文本音頻,所以波形拼接技術(shù)通過已有庫(kù)中的音節(jié)進(jìn)行拼接,實(shí)現(xiàn)語音合成的功能。一般此技術(shù)需要大量的錄音,錄音量越大,效果越好,一般做的好的音庫(kù),錄音量在50小時(shí)以上。
優(yōu)點(diǎn):音質(zhì)好,情感真實(shí)。
缺點(diǎn):需要的錄音量大,覆蓋要求高,字間協(xié)同過渡生硬,不平滑,不是很自然。
- 參數(shù)語音合成技術(shù)
參數(shù)合成技術(shù)主要是通過數(shù)學(xué)方法對(duì)已有錄音進(jìn)行頻譜特性參數(shù)建模,構(gòu)建文本序列映射到語音特征的映射關(guān)系,生成參數(shù)合成器。所以當(dāng)輸入一個(gè)文本時(shí),先將文本序列映射出對(duì)應(yīng)的音頻特征,再通過聲學(xué)模型(聲碼器)將音頻特征轉(zhuǎn)化為我們聽得懂的聲音。
優(yōu)點(diǎn):錄音量小,可多個(gè)音色共同訓(xùn)練,字間協(xié)同過渡平滑,自然等。
缺點(diǎn):音質(zhì)沒有波形拼接的好,機(jī)械感強(qiáng),有雜音等。
- 端到端語音合成技術(shù)
端到端語音合成技術(shù)是目前比較火的技術(shù),通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法,實(shí)現(xiàn)直接輸入文本或者注音字符 ,中間為黑盒部分,然后輸出合成音頻,對(duì)復(fù)雜的語言分析部分得到了極大的簡(jiǎn)化。所以端到端的語音合成技術(shù),大大降低了對(duì)語言學(xué)知識(shí)的要求,且可以實(shí)現(xiàn)多種語言的語音合成,不再受語言學(xué)知識(shí)的限制。通過端到端合成的音頻,效果得到的進(jìn)一步的優(yōu)化,聲音更加貼近真人。
優(yōu)點(diǎn):對(duì)語言學(xué)知識(shí)要求降低,合成的音頻擬人化程度更高,效果好,錄音量小。
缺點(diǎn):性能大大降低,合成的音頻不能人為調(diào)優(yōu)。
以上主要是對(duì)語音合成技術(shù)原理的簡(jiǎn)單介紹,也是目前語音合成主流應(yīng)用的技術(shù)。當(dāng)前的技術(shù)也再迭代更新,像端到端技術(shù)目前比較火的wavenet,Tacotron,Tacotron2以及deepvoice3等技術(shù),感興趣的朋友可以自己了解學(xué)習(xí)。