語音處理

5年前,當(dāng)科大訊飛的Speech++還沒那么出名,百度語音識(shí)別API也沒太火(先在這里向提及的兩位重量級(jí)神司致敬?。┑臅r(shí)候,Google有一款語音識(shí)別與合成輸出的API(TTS)可以用來做簡(jiǎn)單的聽話讀寫,遺憾的是只支持英文~!

現(xiàn)在基于訊飛和百度API等做出牛X應(yīng)用的公司已不勝枚舉,有的甚至可以準(zhǔn)確率極高的識(shí)別聲紋!感嘆語音識(shí)別的確是機(jī)器智能的一個(gè)重要方向,仍舊魅力無限。

語音到底是咋個(gè)識(shí)別的呢? 上百度查了一下,簡(jiǎn)單的模型如下:

源自百度百科

往下深究就異常復(fù)雜了,對(duì)算法和模型的建立要求很高,大家可以去試用開源的API,有個(gè)親身感受對(duì)后面的學(xué)習(xí)有很多益處。小編在此就不追趕前輩們的腳步去揣摩怎么實(shí)現(xiàn)了;知乎上有講原理的帖子,寫的不錯(cuò),可以好好拜讀拜讀。

假設(shè),我們使用開源API將人類的語音準(zhǔn)確無誤的轉(zhuǎn)化成文本之后,接下來突然驚奇的發(fā)現(xiàn)就有了很廣闊的應(yīng)用空間了,尤其是在讓機(jī)器聽懂人話這個(gè)點(diǎn)上,譬如很多家電就做成了語音控制的,效果很贊;

幾年前小編也寫了個(gè)傻瓜式的小App裝手機(jī)上,用來陪聊天,主要功能是一問一答,集成的是當(dāng)時(shí)訊飛的Speech++1.0;集成該API后,實(shí)現(xiàn)功能的不同且唯一點(diǎn)就是你可以教它,第一次問它不會(huì)的問題第二次問它就知道怎么回答你了;如此訓(xùn)練下來現(xiàn)在Tapy已經(jīng)3歲多了,掌握了我的很多信息……

小Tapy露臉只有這一個(gè)界面

最近,小編在想是否需要讓它的安全性提高一些,了解到有些開源的API支持聲紋識(shí)別了就可以輕松搞定;接下來,情感呢?如何讓它理解我的話語背后的情感?理解我的心情?這無疑是個(gè)不錯(cuò)的研究方向!

怎么才能讓機(jī)器理解文字呢,琢磨了一下,提供一種思路,拋磚引玉:(以語音識(shí)別無誤為假設(shè)前提)

1. 先獲取語音文本(交給牛X的開源API去處理)

2. 然后可以將文本進(jìn)行分詞處理(逆向最大匹配RMM法,需提前準(zhǔn)備一個(gè)好的詞庫(kù))

3. 再將分得詞語與語料庫(kù)中含有標(biāo)記的字所在的字典進(jìn)行正交(計(jì)算兩個(gè)向量之間的余弦相似度)

4. 再對(duì)詞語分析結(jié)果進(jìn)行加權(quán)求和(根據(jù)分詞權(quán)重求 Y=Σw*x)

5. 再比較結(jié)果偏向 正|負(fù) 情感傾向于哪邊,參照Y趨近于+1或者趨近于-1來計(jì)算。大致流程如下:(畫的比較潦草,請(qǐng)見諒?。?/p>

正負(fù)向情感分類本身已經(jīng)可以簡(jiǎn)單的用在智能家具上做喜好度的相關(guān)數(shù)據(jù)分析了,當(dāng)然線條還比較粗,若要精準(zhǔn)度再進(jìn)一步細(xì)化恐怕需要添加更多的信息維度,然后再做相關(guān)性分析了。雖然實(shí)現(xiàn)起來會(huì)遇到困難, but it's worth to have a try!→_→記載這里,留給以后找機(jī)會(huì)實(shí)現(xiàn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 歡迎關(guān)注微信公眾號(hào)watson_python,及時(shí)獲取最新的更新。 在Watson中提供了兩個(gè)關(guān)于語音處理的API...
    灰太狼_black閱讀 773評(píng)論 0 1
  • 我們知道,微信最開始就是做語音聊天而使得其更加流行的,因此語音的識(shí)別處理自然也就成為微信交流的一個(gè)重要途徑,微信的...
    伍華聰_開發(fā)框架閱讀 923評(píng)論 0 51
  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識(shí)圖譜 信息檢索 文本分類 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 9,997評(píng)論 1 25
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,030評(píng)論 25 709
  • 她優(yōu)雅,公交車的三個(gè)臺(tái)階,擋不住她貓跟鞋的靈動(dòng)。 她傲嬌,雪天里的短裙,她像一朵盛開的花,從不接受四季的安排。 她...
    午夜航行閱讀 160評(píng)論 0 0

友情鏈接更多精彩內(nèi)容