人工智能與語音識別
訊飛語音輸入
關于今天體驗了一下百度輸入法8.0版本的語音輸入的功能。
就體驗來看,它的語音輸入的能力是很不錯的。顯然,語音識別已經(jīng)達到了國內(nèi)關于中文語音識別的領先水平,當然和方片收集里面用的訊飛引擎還是有一些差距的。
具體的,我正在用語音來記錄自己的想法,我現(xiàn)在感受就很明顯,訊飛的識別率基本上是不會出錯的,特別是關于中文方面,百度有的地方就會出現(xiàn)一些小的瑕疵。其實,關于這一點,我更多的是沒想到百度在語音方面竟然逐漸的追上了訊飛,包括騰訊,搜狗,阿里,對于這方面都有一些自己獨到的模型和算法。訊飛作為國內(nèi)語音識別的第一人,確實感到了巨大的壓力,不過訊飛在這方面確實是領先的,雖說可能是百分之一的差別,但確實是這百分之一造成的了一個短期內(nèi)不可跨越的鴻溝,訊飛還是當之無愧的第一。
技術的積累還是需要一個長期過程。所以,訊飛在未來的時間內(nèi),不僅僅是要尋求技術的突破,更多的是需要從技術到應用上面能夠突破,形成自己的生態(tài)的完美閉環(huán)。
中文識別進展
據(jù)此,想到我們國內(nèi)關于語音識別的技術,中文語音識別只有中國人能夠做到了,國外的一些技術大咖可能關于這些方面的論文有很多,都有獨到的見解,但是畢竟那是試用于國外的語的,中文語音的說話方式,發(fā)音方式以及遣詞造句的方式都是與英文或者說以拉丁文為母系語言的是完全不同的,是獨立于他們之外的一套語言系統(tǒng)。
我作為一個文科生,也很關注這些關于未來的一些變化,整體來看,人工智能和AI必然是大勢所趨,像谷歌的語音助手已經(jīng)能夠具有上下文語境語音識別的功能,在語境中能夠進行分析,目前國內(nèi)的還做不到。
機器學習里面的模型關于語音識別的有很多, 但需要大量的語義資料和語音數(shù)據(jù)來分析和模型優(yōu)化。目前國內(nèi)的積累還是有所欠缺,但是我們不妨朝前看,未來我們肯定能夠做到這一點的,由于中文的問題,可能難度更大,但是大不了就讓機器人多問一些問題罷了,但結果必然是好的。
特例蘋果公司
蘋果公司是一個例外,為什么蘋果自帶的語音助手siri還是這么笨,雖然說采用的是shortcut這個辦法能夠讓你的助手越來越智能,但實際上卻是偽智能,將操作的流程和結果用語音識別保存,就相當于是設定了一個腳本,無非是個腳本的執(zhí)行方式,不是你點一下按鈕而是用語音識別來實現(xiàn)。
蘋果在語音識別方面沒有取得先機而落后于其他的互聯(lián)網(wǎng)公司,這點是我沒有想到的。國內(nèi)一直是緊跟著潮流,把國內(nèi)的各方面都做到緊跟上國際的形勢,這件事非常值得我們?nèi)シQ贊,尤其是有些比國外更厲害。比如說智能音箱,我也買了一兩個,特別是天貓精靈,用了之后,感覺上來說還是比較笨,只能說用最簡單的指令,說你好天貓,然后告訴他幫我干什么事情。而且“你好,天貓”是喚醒詞,每一句指令的前面都要加上這四個字,而且不具有上下文的語境識別功能。雖說已經(jīng)具有了聲紋支付的能力,但是最關鍵的上下文的語境分析能力還很不成熟。
語音識別上,訊飛、百度、搜狗、阿里和騰訊都具有了一定的技術積累,隨著水平不斷提高,在不遠處的未來,肯定是可以實現(xiàn)上下文語境識別功能的,完整的機器人與人的對話也是指日可待的。
人工智能與未來
在這樣的浪潮中,我們能夠做什么呢?
未來必然是人工智能的時代,就像是外國的書《奇點臨近》一樣,現(xiàn)在機器人的智力已經(jīng)逐漸逼近人的智力,甚至有所超越,而且理解能力已經(jīng)跟人的水平快不相上下了。目前人工智能還沒辦法寫代碼,如果人工智具有人的理解能力,能寫出邏輯代碼那么就可以自我復制,這件事想想就很可怕,顯然機器人還遠遠做不到這一點的。目前來說,機器人關于創(chuàng)造性的工作是不行的,還是需要人的,自動化也是在部分程度上解決人的勞動,將人從更繁復的工作中解放出來,讓人在更具有創(chuàng)造性的和難以用機器人取代的工作上面來。
不能成為研發(fā)者,成為應用者也是順應時代了。
語音識別的應用
語音識別方面就有很多可以利用的地方,如我現(xiàn)在把自己一些想法直接說出來,然后轉(zhuǎn)換成文字存儲起來,再用其他的時間整理一下思路,比我用手來打字快了很多,而且不必局限在電腦和手機前面,文字編輯將是人人都可以嘗試的了。
當然,由于是說出來的,會帶有很多的口語的東西,這也是我在說的過程中必須去極力避免的。 另外一個就是要口齒清晰,吐字清楚,它才能更好的識別出來。目前我說的過程中有些口齒不清的地方,結果就會出現(xiàn)很尷尬的錯誤。
整體來說,這樣把我一些想法,把我的一些想寫的東西,都可以更加快速的說出來,其實是很舒服的。難點在于目前對于數(shù)學公式、代碼,這些還是沒辦法識別出來,看來程序還是需要程序員來寫,具有不可替代性。
說文章還有一個壞處,就是你想到哪里說哪里,沒有一個整體的概念。這樣的話就是有點像是意識流,整篇文章就會顯得有些散,后面編輯的話就會花費大量的功夫。小說或者推理性強的懸疑之類的就很難通過說能夠把這樣的文章寫成了。
我們不單說它的好處,我們也不僅僅談論它的壞處。綜合評價,這樣的方式,對于寫一些新聞稿,寫些快訊,寫些想法,是很有幫助的,寫技術類的文章可能就捉襟見肘了。
擁抱未來
對于未來,我是抱有樂觀的態(tài)度的,未來肯定是值得我們?nèi)?,想象和贊美的?/p>
如何去擁抱未來,如何不讓未來把自己淘汰,這是我們現(xiàn)在必須關注的,未來的10年乃至20年必然是激蕩的。這兩年的無人駕駛,能夠有效的取代長途貨運司機,但實際上長途貨運的300萬工人,或者是中國的800萬工人,如果取代了之后,他們將去何去何從,這不僅僅是技術問題的,更多的是社會的問題,更多的是倫理的問題,在保證技術的發(fā)展,同時要保證社會的進步,這才是關鍵。
社會在進步,我們也必須要進步,只有我們的進步大于社會的發(fā)展,我們才能不被社會所淘汰,當然這是理想的。技術和社會的發(fā)展太過于迅猛,我們要緊跟著時代的步伐,不能讓自己被社會淘汰,不能成為社會的領軍者,我們也要努力的跟上時代,不能成為時代的弄潮兒,我們也要抓住時代的尾巴。