2018-10-19 高德地圖里的志玲姐姐聲音,是真的咩?

2018年1月,一檔“創(chuàng)新中國(guó)”節(jié)目登錄熒屏。整檔節(jié)目配音是通過(guò)人工智能技術(shù)合成,再現(xiàn)已逝世的原央視著名播音員李易老師的“聲音”。



人工智能合成逝者聲音,李易原音“再現(xiàn)”_騰訊視頻


記得第一次看到這個(gè)視頻,聽(tīng)到視頻里的聲音,是不是很神奇?后來(lái)請(qǐng)教公司技術(shù)大牛,原來(lái)這款A(yù)I產(chǎn)品背后,是語(yǔ)音合成TTS技術(shù)發(fā)揮著作用。語(yǔ)音合成TTS(即Text-To-Speech,從文本到語(yǔ)音),是計(jì)算機(jī)將文本轉(zhuǎn)化為聲音朗讀出來(lái),它好比人的嘴巴,不過(guò)不是真人在說(shuō)話而已

語(yǔ)音合成TTS離我們生活有多遠(yuǎn)?很近,TTS其實(shí)已經(jīng)潛移默化的運(yùn)用到大家的生活場(chǎng)景,比如蘋果手機(jī)里的智能助手siri,高德地圖里的郭德綱/志玲姐姐迷之導(dǎo)航,亦或每天手機(jī)里接到的“旁友,香 煙、 外幣貸款要伐?”等噓寒問(wèn)暖的電話。

TTS作為筆者日常審核業(yè)務(wù)合同時(shí),常常蹦跶出現(xiàn)的英文單詞,自然引起筆者的格外關(guān)注,今天就聊聊我對(duì)TTS的理解:

一、目前TTS的主流實(shí)現(xiàn)方式

第一種,“拼接法”,即從預(yù)先錄制的大量語(yǔ)音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等。為了追求合成語(yǔ)音的連貫性,也常常使用雙音子(從一個(gè)音素的中央到下一個(gè)音素的中央)作為單位。如果使用法律人熟悉的例子,就像咱們國(guó)家刑法里有款“變?cè)熵泿抛铩?,就是將真幣采用挖補(bǔ)、剪貼、揭層、拼湊、涂改等方法進(jìn)行加工處理,改變貨幣的真實(shí)形狀增加紙幣的數(shù)量。雖然也是造假,但底層模子(聲音/紙幣)還是“真的”,只是拼接成你想要的東西。拼接法的優(yōu)點(diǎn)是聲音真度高,但成本大,活兒累人,比如上面李易老師的聲音再現(xiàn)視頻。

第二種,“參數(shù)法”,基于參數(shù)的語(yǔ)音合成系統(tǒng)。它其實(shí)是一個(gè)文本抽象成語(yǔ)音學(xué)特征,再用統(tǒng)計(jì)學(xué)模型學(xué)習(xí)出來(lái)語(yǔ)音學(xué)特征和其聲學(xué)特征的對(duì)應(yīng)關(guān)系后,再?gòu)念A(yù)測(cè)出來(lái)的聲學(xué)特征還原成波形( waveform )的過(guò)程。核心是個(gè)預(yù)測(cè)問(wèn)題,有若干統(tǒng)計(jì)模型可以解決,目前主流是用神經(jīng)網(wǎng)絡(luò)用來(lái)預(yù)測(cè)。然后用聲碼器 (vocoder) 生成波形,實(shí)現(xiàn)特征到 waveform 這最后一步。

這種技術(shù)比起第一種“拼接法”,難度提升了不少level。還是拿刑法罪名類比,有些類似“偽造貨幣”行為,即“仿照貨幣的形狀、色彩、圖案等特征,使用各種方法非法制造出外觀上足以亂真的假貨幣”。本質(zhì)上,基于參數(shù)合成的語(yǔ)音根本不是真正人聲,但是聽(tīng)上去很像。當(dāng)然參數(shù)法也有明顯缺點(diǎn),因?yàn)槭苤朴诎l(fā)聲算法,會(huì)有音損,一聽(tīng)往往能辨認(rèn)出是冒牌貨。

現(xiàn)在還有第三種,就是由Google的Deepmind研究出的最新成果wavenet,一種原始音頻波形深度生成模型,能夠模擬任一一種人類聲音,最后出來(lái)的音質(zhì)細(xì)節(jié)十分豐富,基本達(dá)到了與原始語(yǔ)音類似的音質(zhì)水準(zhǔn)(所謂語(yǔ)音質(zhì)量比傳統(tǒng)技術(shù)提高50%,就是這個(gè)意思)。這種技術(shù)活兒讓我想到了最近熱映的《無(wú)雙》,同樣是造假幣,主角最后找到原材料,加工合成的底板,與真幣已經(jīng)分不出真假。隨著深度學(xué)習(xí)不斷發(fā)展,算力和聲碼器難題的不斷解決,未來(lái)的TTS語(yǔ)音合成技術(shù)也會(huì)達(dá)到這一地步。

二、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢?

除了自身好奇以外,對(duì)于從事NLP領(lǐng)域的科技公司,TTS技術(shù)無(wú)疑是產(chǎn)品主線中常常會(huì)遇到的技術(shù)。無(wú)論是采購(gòu)第三方的TTS技術(shù)服務(wù),還是銷售自身TTS技術(shù),TTS里的評(píng)判標(biāo)準(zhǔn)都會(huì)成為驗(yàn)收條款里最重要的組成部分。

TTS的評(píng)判標(biāo)準(zhǔn):

(1)主觀測(cè)試(自然度),以MOS為主。MOS(Mean Opinion Scores),專家級(jí)評(píng)測(cè)(主觀):1-5分,5分最好。ABX,普通用戶評(píng)測(cè)(主觀),讓用戶來(lái)試聽(tīng)兩個(gè)TTS系統(tǒng),進(jìn)行對(duì)比,看哪個(gè)好。每次主觀測(cè)評(píng)應(yīng)該有區(qū)分,比如:這次著重聽(tīng)多音字,下次主要聽(tīng)語(yǔ)氣詞等。(2)客觀測(cè)試,對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估,一般是計(jì)算歐式距離等(RMSE、LSD)。對(duì)合成系統(tǒng)工程上的測(cè)試:實(shí)時(shí)率(合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng))、首包響應(yīng)時(shí)間(用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間)、內(nèi)存占用、CPU占用、3*24小時(shí)崩潰率(crash)等。

三、Wavenet除了生成語(yǔ)言,還能生成什么?

由于WaveNet能夠用來(lái)模擬任何一種音頻信號(hào),嘗試用WaveNet生成音樂(lè)也將很好玩。比如當(dāng)我們采用一個(gè)古典鋼琴曲數(shù)據(jù)集來(lái)訓(xùn)練WaveNet時(shí),它將生成一曲美妙樂(lè)章。

WaveNets將為TTS帶來(lái)無(wú)數(shù)可能,大體上來(lái)講,有生成音樂(lè)和模擬音頻兩類。事實(shí)上,直接運(yùn)用深度神經(jīng)網(wǎng)絡(luò)一個(gè)時(shí)間步長(zhǎng)一個(gè)時(shí)間步長(zhǎng)地生成音樂(lè),這種方法適用于所有16kHZ音頻,這將是非常令人驚喜的。

一個(gè)”彩蛋“

2016年,索尼的工程師利用Flow Machines軟件對(duì)13000首流行歌曲進(jìn)行分析后,由人工智能技術(shù)生成出一首新的旋律,然后由作曲家Benoit Carre進(jìn)行總結(jié)并譜曲,他并沒(méi)有改變這首“新歌”的旋律,而只是負(fù)責(zé)改造成不同的風(fēng)格流派。

而第一首人工智能創(chuàng)作的歌曲被命名為“Daddys Car”,經(jīng)過(guò)配樂(lè)后頗具披頭士的風(fēng)格。


Daddys Car人工智能寫的歌_騰訊視頻

至少,我刷新了幾遍,已能邊聽(tīng)邊哼哼了~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容