人工智能(AI),印象最深的時事新聞,大概就是阿爾法圍棋(AlphaGo)作為第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能機(jī)器人。除此之外,這項技術(shù)也應(yīng)用至生活的方方面面,如指紋解鎖、圖像識別、語音轉(zhuǎn)換文字、機(jī)器人看病等。
從字面意思,我們知道人工智能是學(xué)習(xí)人類的一種模式,其涉及的范圍廣闊,從技術(shù)領(lǐng)域上分類有機(jī)器視覺、指紋識別、人臉識別、視網(wǎng)膜識別、虹膜識別、智能搜索、博弈、自動程序設(shè)計、智能控制、機(jī)器人學(xué)、語言和圖像理解、遺傳編程等。其中的涉及的領(lǐng)域可謂包羅萬象,而Alphago屬于圍棋博弈、深藍(lán)屬于象棋博弈。
今天文子,就給大家盤點一下AI應(yīng)用的新拓展的內(nèi)容,其中最為顯著的就是圖像識別、語言識別,這樣說著好像似曾相識,但是AI永不止步于你認(rèn)識的這些。
一、圖像識別
圖像識別技術(shù)是人工智能的一個重要領(lǐng)域。就如近期支付寶推出的刷臉支付設(shè)備“蜻蜓”,其中便涉及到了圖像識別。但你以為這就是AI的圖像識別了嗎?——大錯特錯。
AI的圖像識別主要需要幾種步驟實現(xiàn)識別:信息獲取、圖像處理、特征抽取和選擇、判決設(shè)計、分類決策等。其中涉及的原理與過程極其復(fù)雜,在這里文子就不過多說。
現(xiàn)階圖像識別技術(shù)娛樂應(yīng)用最為成熟,游戲與相機(jī)居多
圖像識別技術(shù),如今主要應(yīng)用在娛樂方面。譬如,百度魔圖的“大咖配”功能,它可以通過圖像大數(shù)據(jù)庫去幫助用戶找到與其長相最匹配的明星;百度的圖片搜索功能,上傳圖片之后通過圖像識別為用戶找到相似的圖片;國內(nèi)專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室,借助圖形識別技術(shù)研發(fā)移動端的體感游戲等等。
對于圖像識別的發(fā)展前景,并不止娛樂化,它還將逐步趨向功能化。比如Facebook研發(fā)了根據(jù)相片進(jìn)行人臉匹配的DeepFace;雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow可以通過圖像識別自動生成照片的標(biāo)簽以幫助用戶管理手機(jī)上的照片,通過越來越多的智能相冊APP的衍生,可見其中的重要性。
前面舉例的都是現(xiàn)階段圖像識別技術(shù)的應(yīng)用場景,那么未來的它,將會綻放什么樣的魅力呢?
圖像識別技術(shù)的高階應(yīng)用——讓AI擁有“眼睛”
《人工智能:一種現(xiàn)代方法》中提到:“在人工智能中,感知是通過解釋傳感器的響應(yīng)而為機(jī)器提供它們所處的世界的信息,其中它們與人類共有的感知形態(tài)包括視覺、聽覺和觸覺,而視覺最為重要,因為視覺是一切行動的基礎(chǔ)?!?/p>
這也是大多數(shù)人提到AI,第一時間想到的是圖像識別技術(shù)的重要原因,因為這項技術(shù)的研究發(fā)展,是我們走向ASI(超人工智能)的重要關(guān)鍵之一,也是AI執(zhí)行決策時的重要考究。
二、語音識別技術(shù)
語音識別技術(shù)研究涉及人工智能、信號處理、模式識別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等諸多學(xué)科領(lǐng)域,具有多學(xué)科綜合性的研究屬性。
語音識別,任務(wù)處理助手成為常態(tài)
在日常生活中,說到語音識別,首先會想到語音助理Siri,曾經(jīng)一度是蘋果手機(jī)的一大亮點。但隨著語音識別的影響力逐步擴(kuò)大,整體市場需求的增加,國內(nèi)對其的研究也越發(fā)注重,比如科大訊飛。
對于常見的語音助手,往往是以電子產(chǎn)品為載體,實現(xiàn)語音交互。比如迭代迅速的智能手表、智能車載設(shè)備、智能音箱等等,都是通過設(shè)備讓消費者感受語音交互的智能魅力。
語音交互的產(chǎn)物之所以深受消費者喜愛,除了在生活上能夠提升自身生活的效率與質(zhì)量,更是因為語音交互,所產(chǎn)生的體驗感受,是目前AI技術(shù)中最為普及化與直觀感受的。
根據(jù)數(shù)據(jù)調(diào)研所得,用戶每搜十次搜索引擎,就有五次是通過語音交互的方式,可見語音交互方式在無形改變我們的生活習(xí)慣。
語音交互場景有幾個分類:To B、To C、To G。
To B是為提高企業(yè)效率的工具,因為工具更加個性化和人性化,可以幫他們的用戶提供更好的用戶體驗。
To C是最為常見的,是通過連接各種各樣的交互設(shè)備,實現(xiàn)更多元化的交互方式,也是未來變更人與機(jī)器的重要方式。比如小米智能音箱,提高生活質(zhì)量。
To G與To B 比較類似,只是涉及的行業(yè)不一樣,比如司法、醫(yī)療、教育可以有很多應(yīng)用場景,比如高考的打分,這都是偏政府的行業(yè),是通過語音提供一個更有效率,用機(jī)器可以自動完成的事情,或者提供更好的用戶交互的方式。
在生活中,除了蘋果的siri、小米的小愛同學(xué)、三星的bixby等語音助理之外,我們遇到最多的,是電話智能語音。不止中國移動等企業(yè)使用的智能語音通話,就連中介推銷服務(wù),也在語音技術(shù)加持下,越走越任性。
最后,如同人類一般,AI也是以“感知”去了解世界。從圖像識別上獲取視覺;從語音交互上,實現(xiàn)需求與對話的轉(zhuǎn)換。人工智能潛力無限,有正在不斷完善自身識別技術(shù)的無人駕駛汽車,也有正在日常執(zhí)行任務(wù)的服務(wù)型機(jī)器人,比如送餐服務(wù)員,AI的未來,正如影視呈現(xiàn)的那樣,無限可能,這取決人類的想象有多廣闊,技術(shù)有多強(qiáng)悍!