語音合成學(xué)習(xí)（一）學(xué)習(xí)筆記

我們先要弄清楚一個(gè)問題：什么是語音，語音是由哪些成分構(gòu)成的？

語音就是人說的話，它的記錄形式是一段一段的波形。

語音有三大關(guān)鍵成分：信息音色和韻律。如果能將語音的成分充分自由地拆解和組合，將是對(duì)語音的巨大解放，未來將有無限的想象發(fā)展空間。

語音信息是指說話人說了什么內(nèi)容。

語音的音色是指這段話是誰說的，有一句俗語：未見其人先聞其聲。

韻律就是我們說話的方式，說話時(shí)我們聲音的高低、快慢等。借用某位非著名相聲演員的話來說：人人都會(huì)說話，為什么你還要花錢來聽我說話？

一、介紹

定義

語音合成（text to speech），簡(jiǎn)稱 TTS。將文字轉(zhuǎn)化為語音的一種技術(shù)，類似于人類的嘴巴，通過不同的音色說出想表達(dá)的內(nèi)容。將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。

合成過程

主要包括：獲取輸入的文本→語言處理→韻律處理→聲學(xué)處理→輸出音頻文件。其中語音識(shí)別主要是語言處理、韻律處理、聲學(xué)處理三個(gè)階段的操作。

語言處理

該階段主要是模擬人類對(duì)大自然語言理解的過程，主要工作有輸入文本分析、分詞、語義分析，目的是讓計(jì)算機(jī)能夠盡可能準(zhǔn)確理解輸入文本的含義并為后面的環(huán)節(jié)做準(zhǔn)備。

韻律處理

主要是為合成的語音規(guī)劃出音高、音長(zhǎng)、音強(qiáng)等語音特征，目的是為了讓合成的語音能表達(dá)確切的語意，使得輸出的. 音頻文件更符合實(shí)際。

聲學(xué)處理

這個(gè)階段主要是把前兩個(gè)階段處理結(jié)果合成最終的音頻文件。

二、應(yīng)用場(chǎng)景

熱門研究方向
- 語音轉(zhuǎn)換：說話人轉(zhuǎn)換、語音到歌唱轉(zhuǎn)換、情感轉(zhuǎn)換、口音轉(zhuǎn)換等；
- 歌唱合成：文本到歌唱的轉(zhuǎn)換；
- AI虛擬人：可視化語音合成的技術(shù)，現(xiàn)在熱門的元宇宙就依賴語音合成技術(shù)；
應(yīng)用方向
- 語音交互：機(jī)器人領(lǐng)域、智能車；
- 內(nèi)容生成：有聲讀物，微信聽書等；
- 輔助功能：對(duì)障礙人士起到輔助功能，能夠讓他們發(fā)聲；

三、技術(shù)原理

在語音合成技術(shù)中，主要分為語言分析部分和聲學(xué)系統(tǒng)部分，也稱為前端部分和后端部分，語言分析部分主要是根據(jù)輸入的文字信息進(jìn)行分析，生成對(duì)應(yīng)的語言學(xué)規(guī)格書，想好該怎么讀；聲學(xué)系統(tǒng)部分主要是根據(jù)語音分析部分提供的語音學(xué)規(guī)格書，生成對(duì)應(yīng)的音頻，實(shí)現(xiàn)發(fā)聲的功能。

image.png

文本前端任務(wù)

文本結(jié)構(gòu)與語種判斷

當(dāng)需要合成的文本輸入后，先要判斷是什么語種，例如中文，英文，藏語，維語等，再根據(jù)對(duì)應(yīng)語種的語法規(guī)則，把整段文字切分為單個(gè)的句子，并將切分好的句子傳到后面的處理模塊。

文本標(biāo)準(zhǔn)化

在輸入需要合成的文本中，有阿拉伯?dāng)?shù)字或字母，需要轉(zhuǎn)化為文字。根據(jù)設(shè)置好的規(guī)則，使合成文本標(biāo)準(zhǔn)化。例如， “請(qǐng)問您是尾號(hào)為8967的機(jī)主嗎？” “8967”為阿拉伯?dāng)?shù)字，需要轉(zhuǎn)化為漢字“八九六七”，這樣便于進(jìn)行文字標(biāo)音等后續(xù)的工作；再如，對(duì)于數(shù)字的讀法，剛才的“8967“為什么沒有轉(zhuǎn)化為”八千九百六十七“呢？因?yàn)樵谖谋緲?biāo)準(zhǔn)化的規(guī)則中，設(shè)定了”尾號(hào)為+數(shù)字“的格式規(guī)則，這種情況下數(shù)字按照這種方式播報(bào)。這就是文本標(biāo)準(zhǔn)化中設(shè)置的規(guī)則。

文本轉(zhuǎn)音素

在漢語的語音合成中，基本上是以拼音對(duì)文字標(biāo)注的，所以我們需要把文字轉(zhuǎn)化為相對(duì)應(yīng)的拼音，但是有些字是多音字，怎么區(qū)分當(dāng)前是哪個(gè)讀音，就需要通過分詞，詞性句法分析，判斷當(dāng)前是哪個(gè)讀音，并且是幾聲的音調(diào)。

例如，“南京市長(zhǎng) 江大橋”為“nan2 jing1 shi4 zhang3 jiang1 da4 qiao2”或者“南京市長(zhǎng)江大橋”“nan2 jing1 shi4 chang2 jiang1 da4 qiao3”。

句讀韻律預(yù)測(cè)

人類在語言表達(dá)的時(shí)候總是附帶著語氣與感情，TTS合成的音頻是為了模仿真實(shí)的人聲，所以需要對(duì)文本進(jìn)行韻律預(yù)測(cè)，什么地方需要停頓，停頓多久，哪個(gè)字或者詞語需要重讀，哪個(gè)詞需要輕讀等，實(shí)現(xiàn)聲音的高低曲折，抑揚(yáng)頓挫。

聲學(xué)系統(tǒng)處理

聲學(xué)系統(tǒng)部分目前主要有三種技術(shù)實(shí)現(xiàn)方式，分別為：波形拼接，參數(shù)合成以及端到端的語音合成技術(shù)。

波形拼接語音合成

通過前期錄制大量的音頻，盡可能全的覆蓋所有的音節(jié)音素，基于統(tǒng)計(jì)規(guī)則的大語料庫(kù)拼接成對(duì)應(yīng)的文本音頻，所以波形拼接技術(shù)通過已有庫(kù)中的音節(jié)進(jìn)行拼接，實(shí)現(xiàn)語音合成的功能。一般此技術(shù)需要大量的錄音，錄音量越大，效果越好，一般做的好的音庫(kù)，錄音量在50小時(shí)以上。

優(yōu)點(diǎn)：音質(zhì)好，情感真實(shí)。

缺點(diǎn)：需要的錄音量大，覆蓋要求高，字間協(xié)同過渡生硬，不平滑，不是很自然。

參數(shù)語音合成技術(shù)

參數(shù)合成技術(shù)主要是通過數(shù)學(xué)方法對(duì)已有錄音進(jìn)行頻譜特性參數(shù)建模，構(gòu)建文本序列映射到語音特征的映射關(guān)系，生成參數(shù)合成器。所以當(dāng)輸入一個(gè)文本時(shí)，先將文本序列映射出對(duì)應(yīng)的音頻特征，再通過聲學(xué)模型（聲碼器）將音頻特征轉(zhuǎn)化為我們聽得懂的聲音。

優(yōu)點(diǎn)：錄音量小，可多個(gè)音色共同訓(xùn)練，字間協(xié)同過渡平滑，自然等。

缺點(diǎn)：音質(zhì)沒有波形拼接的好，機(jī)械感強(qiáng)，有雜音等。

端到端語音合成技術(shù)

端到端語音合成技術(shù)是目前比較火的技術(shù)，通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法，實(shí)現(xiàn)直接輸入文本或者注音字符，中間為黑盒部分，然后輸出合成音頻，對(duì)復(fù)雜的語言分析部分得到了極大的簡(jiǎn)化。所以端到端的語音合成技術(shù)，大大降低了對(duì)語言學(xué)知識(shí)的要求，且可以實(shí)現(xiàn)多種語言的語音合成，不再受語言學(xué)知識(shí)的限制。通過端到端合成的音頻，效果得到的進(jìn)一步的優(yōu)化，聲音更加貼近真人。

優(yōu)點(diǎn)：對(duì)語言學(xué)知識(shí)要求降低，合成的音頻擬人化程度更高，效果好，錄音量小。

缺點(diǎn)：性能大大降低，合成的音頻不能人為調(diào)優(yōu)。

以上主要是對(duì)語音合成技術(shù)原理的簡(jiǎn)單介紹，也是目前語音合成主流應(yīng)用的技術(shù)。當(dāng)前的技術(shù)也再迭代更新，像端到端技術(shù)目前比較火的wavenet，Tacotron，Tacotron2以及deepvoice3等技術(shù)，感興趣的朋友可以自己了解學(xué)習(xí)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

語音合成學(xué)習(xí)（一）學(xué)習(xí)筆記

語音合成學(xué)習(xí)（一）學(xué)習(xí)筆記

語音合成學(xué)習(xí)（一）學(xué)習(xí)筆記

一、介紹

定義

合成過程

二、應(yīng)用場(chǎng)景

三、技術(shù)原理

文本前端任務(wù)

聲學(xué)系統(tǒng)處理

相關(guān)閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

語音合成學(xué)習(xí)（一）學(xué)習(xí)筆記

語音合成學(xué)習(xí)（一）學(xué)習(xí)筆記

一、介紹

定義

合成過程

二、應(yīng)用場(chǎng)景

三、技術(shù)原理

文本前端任務(wù)

聲學(xué)系統(tǒng)處理

相關(guān)閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、介紹

二、應(yīng)用場(chǎng)景

三、技術(shù)原理