国产丰满熟女综合专区,av 美女福利一区,97精品人

2018年1月，一檔“創(chuàng)新中國(guó)”節(jié)目登錄熒屏。整檔節(jié)目配音是通過(guò)人工智能技術(shù)合成，再現(xiàn)已逝世的原央視著名播音員李易老師的“聲音”。

人工智能合成逝者聲音，李易原音“再現(xiàn)”_騰訊視頻

記得第一次看到這個(gè)視頻，聽(tīng)到視頻里的聲音，是不是很神奇？后來(lái)請(qǐng)教公司技術(shù)大牛，原來(lái)這款A(yù)I產(chǎn)品背后，是語(yǔ)音合成TTS技術(shù)發(fā)揮著作用。語(yǔ)音合成TTS（即Text-To-Speech，從文本到語(yǔ)音），是計(jì)算機(jī)將文本轉(zhuǎn)化為聲音朗讀出來(lái)，它好比人的嘴巴，不過(guò)不是真人在說(shuō)話而已。

語(yǔ)音合成TTS離我們生活有多遠(yuǎn)？很近，TTS其實(shí)已經(jīng)潛移默化的運(yùn)用到大家的生活場(chǎng)景，比如蘋果手機(jī)里的智能助手siri，高德地圖里的郭德綱/志玲姐姐迷之導(dǎo)航，亦或每天手機(jī)里接到的“旁友，~~（香煙、 外幣）~~貸款要伐？”等噓寒問(wèn)暖的電話。

TTS作為筆者日常審核業(yè)務(wù)合同時(shí)，常常蹦跶出現(xiàn)的英文單詞，自然引起筆者的格外關(guān)注，今天就聊聊我對(duì)TTS的理解：

一、目前TTS的主流實(shí)現(xiàn)方式

第一種，“拼接法”，即從預(yù)先錄制的大量語(yǔ)音中，選擇所需的基本單位拼接而成。這樣的單位可以是音節(jié)、音素等等。為了追求合成語(yǔ)音的連貫性，也常常使用雙音子（從一個(gè)音素的中央到下一個(gè)音素的中央）作為單位。如果使用法律人熟悉的例子，就像咱們國(guó)家刑法里有款“變?cè)熵泿抛铩?，就是將真幣采用挖補(bǔ)、剪貼、揭層、拼湊、涂改等方法進(jìn)行加工處理，改變貨幣的真實(shí)形狀增加紙幣的數(shù)量。雖然也是造假，但底層模子（聲音/紙幣）還是“真的”，只是拼接成你想要的東西。拼接法的優(yōu)點(diǎn)是聲音真度高，但成本大，活兒累人，比如上面李易老師的聲音再現(xiàn)視頻。

第二種，“參數(shù)法”，基于參數(shù)的語(yǔ)音合成系統(tǒng)。它其實(shí)是一個(gè)文本抽象成語(yǔ)音學(xué)特征，再用統(tǒng)計(jì)學(xué)模型學(xué)習(xí)出來(lái)語(yǔ)音學(xué)特征和其聲學(xué)特征的對(duì)應(yīng)關(guān)系后，再?gòu)念A(yù)測(cè)出來(lái)的聲學(xué)特征還原成波形（ waveform ）的過(guò)程。核心是個(gè)預(yù)測(cè)問(wèn)題，有若干統(tǒng)計(jì)模型可以解決，目前主流是用神經(jīng)網(wǎng)絡(luò)用來(lái)預(yù)測(cè)。然后用聲碼器 (vocoder) 生成波形，實(shí)現(xiàn)特征到 waveform 這最后一步。

這種技術(shù)比起第一種“拼接法”，難度提升了不少level。還是拿刑法罪名類比，有些類似“偽造貨幣”行為，即“仿照貨幣的形狀、色彩、圖案等特征，使用各種方法非法制造出外觀上足以亂真的假貨幣”。本質(zhì)上，基于參數(shù)合成的語(yǔ)音根本不是真正人聲，但是聽(tīng)上去很像。當(dāng)然參數(shù)法也有明顯缺點(diǎn)，因?yàn)槭苤朴诎l(fā)聲算法，會(huì)有音損，一聽(tīng)往往能辨認(rèn)出是冒牌貨。

現(xiàn)在還有第三種，就是由Google的Deepmind研究出的最新成果wavenet，一種原始音頻波形深度生成模型，能夠模擬任一一種人類聲音，最后出來(lái)的音質(zhì)細(xì)節(jié)十分豐富，基本達(dá)到了與原始語(yǔ)音類似的音質(zhì)水準(zhǔn)（所謂語(yǔ)音質(zhì)量比傳統(tǒng)技術(shù)提高50%，就是這個(gè)意思）。這種技術(shù)活兒讓我想到了最近熱映的《無(wú)雙》，同樣是造假幣，主角最后找到原材料，加工合成的底板，與真幣已經(jīng)分不出真假。隨著深度學(xué)習(xí)不斷發(fā)展，算力和聲碼器難題的不斷解決，未來(lái)的TTS語(yǔ)音合成技術(shù)也會(huì)達(dá)到這一地步。

二、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢？

除了自身好奇以外，對(duì)于從事NLP領(lǐng)域的科技公司，TTS技術(shù)無(wú)疑是產(chǎn)品主線中常常會(huì)遇到的技術(shù)。無(wú)論是采購(gòu)第三方的TTS技術(shù)服務(wù)，還是銷售自身TTS技術(shù)，TTS里的評(píng)判標(biāo)準(zhǔn)都會(huì)成為驗(yàn)收條款里最重要的組成部分。

TTS的評(píng)判標(biāo)準(zhǔn)：

（1）主觀測(cè)試（自然度），以MOS為主。MOS（Mean Opinion Scores），專家級(jí)評(píng)測(cè)（主觀）：1-5分，5分最好。ABX，普通用戶評(píng)測(cè)（主觀），讓用戶來(lái)試聽(tīng)兩個(gè)TTS系統(tǒng)，進(jìn)行對(duì)比，看哪個(gè)好。每次主觀測(cè)評(píng)應(yīng)該有區(qū)分，比如：這次著重聽(tīng)多音字，下次主要聽(tīng)語(yǔ)氣詞等。（2）客觀測(cè)試，對(duì)合成系統(tǒng)產(chǎn)生的聲學(xué)參數(shù)進(jìn)行評(píng)估，一般是計(jì)算歐式距離等（RMSE、LSD）。對(duì)合成系統(tǒng)工程上的測(cè)試：實(shí)時(shí)率（合成耗時(shí)/語(yǔ)音時(shí)長(zhǎng)）、首包響應(yīng)時(shí)間（用戶發(fā)出請(qǐng)求到用戶感知到的第一包到達(dá)時(shí)間）、內(nèi)存占用、CPU占用、3*24小時(shí)崩潰率（crash）等。

三、Wavenet除了生成語(yǔ)言，還能生成什么？

由于WaveNet能夠用來(lái)模擬任何一種音頻信號(hào)，嘗試用WaveNet生成音樂(lè)也將很好玩。比如當(dāng)我們采用一個(gè)古典鋼琴曲數(shù)據(jù)集來(lái)訓(xùn)練WaveNet時(shí)，它將生成一曲美妙樂(lè)章。

WaveNets將為TTS帶來(lái)無(wú)數(shù)可能，大體上來(lái)講，有生成音樂(lè)和模擬音頻兩類。事實(shí)上，直接運(yùn)用深度神經(jīng)網(wǎng)絡(luò)一個(gè)時(shí)間步長(zhǎng)一個(gè)時(shí)間步長(zhǎng)地生成音樂(lè)，這種方法適用于所有16kHZ音頻，這將是非常令人驚喜的。

一個(gè)”彩蛋“

2016年，索尼的工程師利用Flow Machines軟件對(duì)13000首流行歌曲進(jìn)行分析后，由人工智能技術(shù)生成出一首新的旋律，然后由作曲家Benoit Carre進(jìn)行總結(jié)并譜曲，他并沒(méi)有改變這首“新歌”的旋律，而只是負(fù)責(zé)改造成不同的風(fēng)格流派。

而第一首人工智能創(chuàng)作的歌曲被命名為“Daddys Car”，經(jīng)過(guò)配樂(lè)后頗具披頭士的風(fēng)格。

Daddys Car人工智能寫的歌_騰訊視頻

至少，我刷新了幾遍，已能邊聽(tīng)邊哼哼了~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2018-10-19 高德地圖里的志玲姐姐聲音，是真的咩？

2018-10-19 高德地圖里的志玲姐姐聲音，是真的咩？

一、目前TTS的主流實(shí)現(xiàn)方式

二、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢？

三、Wavenet除了生成語(yǔ)言，還能生成什么？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2018-10-19 高德地圖里的志玲姐姐聲音，是真的咩？

一、目前TTS的主流實(shí)現(xiàn)方式

二、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢？

三、Wavenet除了生成語(yǔ)言，還能生成什么？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2018-10-19 高德地圖里的志玲姐姐聲音，是真的咩？

一、目前TTS的主流實(shí)現(xiàn)方式

二、AI公司的法務(wù)為啥要去了解TTS技術(shù)呢？

三、Wavenet除了生成語(yǔ)言，還能生成什么？