語音識別長篇研究(五)

承接上文

放飛人夜:語音識別長篇研究(四)?zhuanlan.zhihu.com

十、語音識別公司盤點

1、國外語音交互識別供應商

(1)Nuance

Nuance全球最大的語音技術公司,超1000項專利技術。目前世界上最先進的電腦語音識別軟件Naturally Speaking就出自于Nuance公司。用戶對著麥克風說話,屏幕上就會顯示出說話的內(nèi)容。T9智能文字輸入法作為旗艦產(chǎn)品,最大優(yōu)勢支持超過70種語言,超過30億部移動設備內(nèi)置T9輸入法。已成為業(yè)內(nèi)認同的標準輸入法,被眾多OEM廠商內(nèi)置,包括諾基亞、索愛、三星、LG、夏普、海爾、華為等等。T9全球市場占有率超70%,中國超50%;

Nuance的產(chǎn)品提供人性化、高效率的電話口語或語言辨識功能,消費者可透過傳統(tǒng)的電話系統(tǒng)或行動電話以自然口語交談的方式完成資料查詢及商業(yè)貿(mào)易,使用輕松。在類似的產(chǎn)品中擁有最高的語音辨識率,英文可達99%。其英文語音產(chǎn)品Dragon NaturallySpeaking9在法律和醫(yī)院臨床記錄占據(jù)很大市場;

Nuance是全球最大的語音識別技術公司,這十幾年里,其經(jīng)歷了無數(shù)次起起落落:曾被蘋果、Google、三星捧在手上,被絕大多數(shù)語音公司為之朝貢。之后卻連連遭遇市值暴跌、技術瓶頸、客戶流失、離職潮、錯過最佳出售時間等,最終不得不從只專注縱向深耕算法的技術提供商轉(zhuǎn)型為橫向擴展各行業(yè)解決方案的公司。

(2)微軟

提到微軟在語音交互的布局,不得不說起微軟兩姐妹,小冰和小娜。微軟現(xiàn)在有三款聊天機器人,主打情感計算的小冰、主打商務助理的小娜,還有在垂直領域的深度應用智能客服。

微軟過去幾十年做的人工智能方面的研發(fā)集成到Azure云上去,Azure云支持IoT、Bot Framework,第三方用微軟的人工智能技術,已經(jīng)可以通過Bot Framework、Azure IoT等來做。

Azure云可以實現(xiàn)更多的事情,像語音識別、語言理解、機器翻譯、語音合成。

(3)Sensory

Sensory 致力于改善用戶體驗通過嵌入式機器學習技術,如語音、視覺、和自然語言處理。開發(fā)、生產(chǎn)高性價比的語音識別產(chǎn)品。二十多年前公司的創(chuàng)立者開發(fā)了第一個語音合成芯片,率先將音頻技術應用到PC機和消費電子產(chǎn)品中。

Sensor的技術從數(shù)以百計的出貨量在20億產(chǎn)品領先的消費電子產(chǎn)品制造商包括丙氨酸,孩之寶,華為,谷歌,JVC,LG、摩托羅拉、美泰公司Plantronics,三星、索尼、世嘉,Uniden,V-Tech。感覺有超過35發(fā)布專利覆蓋語音識別在消費電子,生物認證,傳感器/語音組合,語音識別在DSP的,客戶端/云使用語音技術等等。

(4)谷歌

Google一直致力于投資語音技術,此前收購多家語音識別技術公司及專利。

2011年,收購語音通信技術公司 SayNow 和語音合成技術 Phonetic Arts。 2014年收購SR Tech Group的多項語音識別相關的專利,其中包括 “ 搜索引擎語音界面” 和 “ 修改、更新語音識別項目系統(tǒng)” 的專利。

今年4月份Google還開放了自己的語音識別API,即Google 語音搜索和語音輸入的支持技術。Google Cloud SPeech API包括了80多種語言,適用于各種實時語音識別與翻譯應用。

2017年,谷歌宣布了用于語音交互的Actions on Google平臺得到進一步擴展?,F(xiàn)在該平臺將支持所有Google Assistant所支持的平臺,在功能方面,Actions甚至允許用戶通過語音完成交易。

(5)蘋果

蘋果收購過Siri、Novauris、VocalIQ等語音技術公司,且請了不少牛B的人組建基于神經(jīng)網(wǎng)絡算法的語音識別團隊。

蘋果正依靠語音助手Siri構建更大的生態(tài)系統(tǒng),在最新的HomeKit的合作伙伴名單中,除了國內(nèi)廠商海爾,還有照明廠商飛利浦、科銳 (CREE),以及Marvell(美滿電子)、Honeywell(霍尼韋爾)等全球頂級制造商。

(6)亞馬遜Alex

Alexa是亞馬遜的云語音服務提供數(shù)以百萬計的設備從亞馬遜和第三方設備制造商。用Alexa,您可以構建自然聲音的經(jīng)驗,提供客戶更直觀的方式與他們每天使用的技術。我們收集的工具、api、參考解決方案,和文檔方便任何人用Alexa構建。

亞馬遜Alexa與谷歌Assistant正圍繞各自的語音助手輔助應用展開激烈的競爭,兩家公司都在努力讓助手們盡可能多地搭載汽車、智能音箱、集線器、耳機、智能手機和其他設備上使用。例如,谷歌最近宣布與門鎖制造商西勒奇(Schlage)在語音助手方面進行合作,而Alexa也即將應用于藍牙汽車充電器。谷歌與它的智能助手相比Alexa確實更有優(yōu)勢:它在許多國家(在歐洲和其他地方)比Alexa更有市場。方案,和文檔方便任何人用Alexa構建。

2、國內(nèi)語音識別交互供應商

(1)驀然認知:

驀然認知成立于是一家以認知計算、自然語言理解技術為核心的人工智能公司。提供”信號處理+語音識別+語義理解+服務自動對接”的一站式“對話機器人”解決方案, 通過云端深度對接服務和內(nèi)容,以語音對話方式來分發(fā)各種服務;同時,“對話機器人”可以驅(qū)動各種設備與人自然交互,進而構建無縫的智能化機器協(xié)作網(wǎng)絡,高效完成任務。擁有覆蓋智能車機系統(tǒng),智能電視系統(tǒng),智能音箱系統(tǒng)的成熟產(chǎn)品,覆蓋智能車載,智能家居的成熟解決方案。

和國內(nèi)的不少著名語音交互公司一樣,,驀然認知的技術骨干也都是來自BAT語音技術方面的專家。擁有成熟的技術團隊,成立兩年多,已經(jīng)發(fā)展到準獨角獸規(guī)模,總部成員近百人,深圳和上海都開設了分公司。迅速搶占市場,成為語音界新貴。

核心團隊:

戴帥湘,北京驀然認知科技創(chuàng)始人,CEO;前百度主任架構師,長期擔任百度Query理解方向負!責人,是語義分析方面的專家;百度語義技術的最高獎-----第一個也是迄今為止唯一 一個以NLP技術為核心的最高獎;2010年提出“Query改寫模型”給百度搜索引擎技術帶來了搜索相關性和廣告收入均大幅提升,在自然語言處理、語義搜索、自動問題求解等領域內(nèi)有20多項專利技術 ;曾主導設計了百度度秘,百度框計算,及百度輸入法中語言處理的核心算法;

龔思穎--市場總監(jiān)(聯(lián)合創(chuàng)始人),前大疆創(chuàng)新北美地區(qū)人力資源及客戶關系負責人;

張偉萌--技術總監(jiān)(聯(lián)合創(chuàng)始人),曾百度百度任職6年多,研究自然語言處理技術;2008年碩士畢業(yè),有9年自然語言處理的工作經(jīng)驗,有近10項專利技術發(fā)明;

李國華--資深技術專家(聯(lián)合創(chuàng)始人),曾為百度自然語言處理部資深工程師,2012年碩士畢業(yè);

洪濤--首席技術顧問,百度首位高級科學家,有20多年的行業(yè)經(jīng)驗;

(2)科大訊飛

科大訊飛股份有限公司從事智能語音及語言技術、人工智能技術研究,軟件及芯片產(chǎn)品開發(fā),語音信息服務及電子政務系統(tǒng)集成的國家級骨干軟件企業(yè)。

科大訊飛作為中國智能語音與人工智能產(chǎn)業(yè)領導者,在語音合成、語音識別、口語評測、自然語言處理等多項技術上擁有國際領先的成果。

2015年,科大訊飛重新定義了萬物互聯(lián)時代的人機交互標準,發(fā)布了對人工智能產(chǎn)業(yè)具有里程碑意義的人機交互界面——AIUI。2016年,圍繞科大訊飛人工智能開放平臺的使用人次與創(chuàng)業(yè)團隊成倍增長。截至2017年1月,訊飛開放平臺在線日服務量超30億人次,合作伙伴達到25萬家,用戶數(shù)超9.1億,以科大訊飛為中心的人工智能產(chǎn)業(yè)生態(tài)持續(xù)構建。

(3)思必馳

思必馳專注人性化的智能語音交互技術,思必馳是國內(nèi)擁有全套語音類知識產(chǎn)權的公司。在語音識別、語音合成、語義理解、聲紋識別、對話管理、音頻分析等方面均有深厚技術積累。國際上極少數(shù)擁有自主產(chǎn)權、中英文綜合語音技術(語音識別、語音合成、自然語言理解、智能交互決策、聲紋識別、性別及年齡識別、情緒識別等)的公司之一。

目前思必馳把語音相關技術整合成 AI OS 人機對話操作系統(tǒng),作為安卓系統(tǒng)之上的一層標準接口,提供給硬件合作伙伴。針對不同場景,AIOS 又分成了 For Car,F(xiàn)or Home,F(xiàn)or Robot 等版本,針對車載、家居、機器人等產(chǎn)品做垂直領域下的對話式交互。

(4)出門問問

出門問問應該是除了科大訊飛和百度以外,唯一一家有全套語音交互核心技術的創(chuàng)業(yè)型公司。

(5)云知聲

云知聲,是一家專注物聯(lián)網(wǎng)人工智能服務,擁有完全自主知識產(chǎn)權、世界頂尖智能語音識別技術的高新技術企業(yè)。

云知聲利用機器學習平臺(深度學習、增強學習、貝葉斯學習),在語音技術、語言技術、知識計算、大數(shù)據(jù)分析等領域建立了領先的核心技術體系,這些技術共同構成了云知聲完整的人工智能技術圖譜。在應用層面, AI芯、AIUI、AI Service三大解決方案支撐起云知聲核心技術的落地和實現(xiàn),目前已經(jīng)在家居、汽車、醫(yī)療和教育等領域有廣泛應用,形成了完整的“云端芯”生態(tài)閉環(huán)。

云知聲自成立以來,發(fā)展迅速,備受人工智能行業(yè)及資本市場的廣泛關注,累積融資近億美元。云知聲的合作伙伴數(shù)量已經(jīng)超過2萬家,覆蓋用戶已經(jīng)超過2億,日調(diào)用量2億次,其中語音云平臺覆蓋的城市超過647個,覆蓋設備超過1億臺。并且,云知聲連續(xù)兩年入選福布斯中國最快科技成長公司50強企業(yè),是中國人工智能行業(yè)成長最快的創(chuàng)業(yè)公司之一 。

(6)哦啦語音

哦啦語音于2013年初成立,擁有在中文自然語言理解、語音識別、語音控制和語音交互系統(tǒng)等方面的 20 多項自主專利。目前已應用在智能家居、智能車載、可穿戴設備、語義和交互API服務、智能會議系統(tǒng)、手機語音助手幾個方面。他們家最大的特色,是對于中文語義的理解,針對用戶各種問題可以給出生動、活潑、幽默、精確的回答。通過哦啦,用戶可以通過語音控制,實現(xiàn)用戶對各種生活信息的實時查詢和操作、對手機內(nèi)各個程序的調(diào)取要求,以及在界面內(nèi)實現(xiàn)人機互動聊天、娛樂等需求。在未來,用戶只要打開哦啦,就可以完成所需要的手機操作。是第一款實現(xiàn)對于用戶連貫性提問進行全文解析的語音助手。

(7)問之科技

問之科技是一家從事產(chǎn)品自主研發(fā)的高科技企業(yè)。問之科技專注于人工智能產(chǎn)品和技術研究領域的開發(fā),致力于打造中國機器人的最強大腦。以語音、語義、視頻技術為核心服務于機器人及智能家居領域,一切旨在為拓展智能交互新體驗,用聲音傳遞簡易生活方式。

(8)SoundAI(聲智科技)

SoundAI是一家專注聲學前沿技術和人工智能交互的科技創(chuàng)新公司,致力于引領真實環(huán)境下更自由的人工智能交互體驗,實現(xiàn)“聽你所言,知你所想”的人機交互愿景。

SoundAI提供從軟硬件到云服務的遠場語音交互技術方案,以及從芯片模組、PCBA到工業(yè)設計的Turnkey產(chǎn)品方案,其回聲抵消、噪聲抑制、聲源定位、混響消除、波束形成、遠場語音喚醒、遠場語音識別等技術在業(yè)界遙遙領先;同時,聲智科技與ARM、NVIDIA、Xilinx、Cypress、Knowles、百度、騰訊等著名企業(yè)深度合作,深耕智能家居、智能汽車、智能安防、智能金融、智能教育和機器人等行業(yè),服務于小米、360、京東、聯(lián)想、海爾、創(chuàng)維等著名品牌,共同提升遠場語音交互的用戶體驗。

同時,全面采用聲智科技語音交互解決方案和模組的產(chǎn)品也已經(jīng)陸續(xù)上線。

SoundAI努力以技術拉動產(chǎn)業(yè),以技術改變生活,以技術服務社會,持續(xù)推動國內(nèi)外聲學領域和人工智能領域的產(chǎn)品升級和技術創(chuàng)新。

(9)慧聽科技

慧聽科技是數(shù)據(jù)服務提供商。擁有一支專業(yè)的數(shù)據(jù)制作團隊,負責完成過語音識別、語音合成、語音評測、語言文本類、多媒體類等多領域數(shù)據(jù)制作,并參與過語音合成、語音識別、輸入法系統(tǒng)的研發(fā)。同時,慧聽科技還有一支高水平技術研發(fā)團隊,為數(shù)據(jù)服務提供強大的技術支撐。公司的硬件設施過硬,擁有符合ITU國際標準的錄音室和錄音設備。在管理方面,慧聽公司采用全程質(zhì)量監(jiān)控流程,執(zhí)行完善的標注流程,配合保密管理手段,提供質(zhì)量上乘的數(shù)據(jù)服務。

目前,慧聽科技能夠提供語言語音、多媒體兩大類幾十余種數(shù)據(jù)服務。

(10)馳聲科技

馳聲科技專業(yè)從事智能語音技術研究和產(chǎn)業(yè)化的教育科技公司。是國內(nèi)最早進入教育行業(yè)的語音公司之一,馳聲科技自主研發(fā)了基于大數(shù)據(jù)、深度學習的智能語音系列技術,幫助客戶實現(xiàn)人機互動的智能學習產(chǎn)品,引領教育信息化創(chuàng)新發(fā)展。

迄今,馳聲科技已在培訓、出版、教育軟件、在線教育、教育硬 件、考試服務等領域培養(yǎng)了一大批標桿客戶,馳聲科技的智能學習技術也已惠及海內(nèi)外數(shù)以億計的個人學習者。市場上應用了智能語音技術的教育產(chǎn)品 半數(shù)以上都采用了馳聲科技的先進技術。

作為此輪教育信息化浪潮的中堅力量,馳聲科技將持續(xù)、專注地為國內(nèi)外教育企業(yè)提供最專業(yè)、最完善、最優(yōu)質(zhì)的智能技術與服務,并致力于成為 世界一流的智能語音技術品牌服務商。

(11)百度語音

百度語音為開發(fā)者,提供業(yè)界優(yōu)質(zhì)、免費的語音技術服務。通過場景識別優(yōu)化,為車載導航、智能家居等行業(yè)提供語音解決方案。融合依存句法分析、信息抽取、短文本分類等自然語言處理技術。

垂直場景識別模型。在提供通用語音能力的同時,百度語音還提供針對特定垂直領域的語音聽寫模型。開發(fā)者可根據(jù)使用場景,自定義設置識別垂類模型。有音樂、視頻、地圖、游戲、電商共17個垂類領域可供選擇。

豐富的垂直資源。語義解析可以識別用戶的意圖并提取用戶表述中的關鍵內(nèi)容,從而幫助開發(fā)者理解用戶需求,百度語音識別服務支持35個領域的語義解析,可進行多意圖解析、具備強大的糾錯能力,依托百度知道等社區(qū)產(chǎn)品上積累的強大知識庫,更能夠做到智能推理、“不言而明”。

(12)靈云科技

北京捷通華聲科技股份有限公司成立于2000年10月,是一家專注于智能語音、智能圖像、生物特征識別、智能語義等全方位人工智能技術研究與應用,全面發(fā)展人工智能云服務的高新技術企業(yè)。靈云平臺隸屬于北京捷通華聲科技股份有限公司。

2001年,捷通華聲推出代表國內(nèi)最高水平的中文語音合成技術,全面開啟了中文語音合成技術在中國信息產(chǎn)業(yè)發(fā)展中的實用化進程,奠定了捷通華聲在中國語音產(chǎn)業(yè)界的穩(wěn)固地位。歷經(jīng)十年發(fā)展,捷通華聲所擁有的自主知識產(chǎn)權的中文語音合成、手寫識別技術在語音交互、模式識別技術市場占有率達到50%,成為國內(nèi)第一家倡導并實現(xiàn)同時提供語音合成、語音識別、手寫識別、文字識別等技術的全方位人工智能技術提供商。

(13)輕生活科技

深圳市輕生活科技有限公司由國家級高新技術企業(yè)深圳市超維實業(yè)有限公司100%投資,于2015年4月在深圳成立、注冊資本1000萬。

輕生活科技聚焦研究語音交互控制技術和語音搜索技術,并整合WiFi、BLE、RF等先進的物聯(lián)網(wǎng)技術、云服務技術、大數(shù)據(jù)技術等為智能家居行業(yè)提供短平快小生態(tài)技術解決方案;公司專注以前瞻智能語音技術(語音識別技術、語音合成技術、降噪、去回聲等前端處理技術),致力于家居物聯(lián)網(wǎng)智能語音交互技術軟件與硬件的開發(fā);為輕生活品牌提供完整產(chǎn)品,透過輕生活科技來整合優(yōu)質(zhì)的上游資源形成輕生活獨有的產(chǎn)品方案,并通過自己的品牌產(chǎn)品來示范和檢驗并完善方案,從而更好的為輕生活開放性研發(fā)平臺的客戶、加盟方案友商服務。

(14)阿里云(小Ai)

智能語音交互(Intelligent Speech Interaction),是基于語音識別、語音合成、自然語言理解等技術,為企業(yè)在多種實際應用場景下,賦予產(chǎn)品“能聽、會說、懂你”式的智能人機交互體驗。適用于多個應用場景中,包括智能問答、智能質(zhì)檢、法庭庭審實時記錄、實時演講字幕、訪談錄音轉(zhuǎn)寫等場景,在金融、保險、司法、電商等多個領域均有應用案例。

(15)搜狗語音

搜狗從2012年開始研發(fā)智能語音技術,并在2013年開始進行深度學習。目前,搜狗的智能語音技術已經(jīng)成功應用至搜狗的全線產(chǎn)品中。搜狗方面的數(shù)據(jù)顯示,搜狗搜索日均語音搜索次數(shù)增長超過4倍,搜狗輸入法日均輸入超過1.4億次。

搜狗“知音”引擎解決了用戶在說話過程中因語速過快而導致的吞音問題。語音識別錯誤率相對下降30%以上,語音識別速度提升3倍;“知音”能夠在語音交互中支持用戶修正錯誤的識別結(jié)果,用戶可使用自然語言進行改錯。比如,用戶可以說把“張”改為“章”。

此外,“知音”還支持多輪對話,處理更復雜的用戶交互邏輯,用更自然并且用戶更容易接受和理解的方式進行交互。

3、科大VS云知聲

科大訊飛主要產(chǎn)品:

(1)訊飛輸入法:

1)產(chǎn)品介紹::iOS 8上唯一支持語音輸入的第三方輸入法,專為iPhone用戶打造,無需越獄,即可安裝!用戶評分最高的手機輸入法,超過1億用戶使用,智能手機裝機必備。訊飛輸入法,創(chuàng)造極致輸入體驗!

2)功能特色:

a. 速度快:全新“蜂巢Ⅱ代”輸入引擎,完美融合拼音、語音、手寫輸入,輸入更智能;

b. 輸入準:內(nèi)置百萬超大詞庫,拼音云輸入全面升級,準確率提升30%,速度翻倍;

c. 更智能:支持語音、手寫、拼音“云+端”輸入自適應學習,使用越多,輸入越方便!

(1)靈犀:

1)產(chǎn)品介紹:靈犀,中國移動和科大訊飛聯(lián)合推出的智能語音助手,更是國內(nèi)首款支持粵語的語音助手!靈犀既能語音打電話、發(fā)短信、查天氣、搜航班,還能查話費、查流量、買彩票、訂彩鈴,更可以陪你語音閑聊講笑話!

2)功能特色:

1.如果您想偷懶,靈犀MM可以幫你打電話、發(fā)短信、定鬧鐘,是您的貼身小秘書;

2.如果您在路上,靈犀MM可以幫你查天氣、查路線、查美食,是您的生活小導游;

3.如果您愛娛樂,靈犀MM可以幫你聽音樂、訂彩鈴、下應用,是您的娛樂小主播;

4.如果您很無聊,靈犀MM可以陪你聊八卦、講笑話、說新聞,是你的閑聊好朋友!

(2)錄音寶:

1)產(chǎn)品介紹:錄音寶是由科大訊飛推出的手機錄音軟件,界面清爽,高清音質(zhì),支持精準定位、聽聲識人,操作非常簡單,讓您方便錄、容易聽!

2)功能特點:

1.無限時長:隨時隨地,現(xiàn)場錄音不限時長,想錄多久錄多久,保存完整記錄;

2.隨時標記:錄音過程中可隨時標記,供您回聽錄音時精準定位,快速查找;

3.聽聲識人:以不同顏色自動區(qū)分多人對話,誰在說話,一目了然;

4.錄音轉(zhuǎn)文字:可將錄音轉(zhuǎn)換成文字顯示,一鍵復制,方便整理;

5.文件導出:錄音及文字可輕松導出,方便存儲及使用;

6.一鍵分享:錄音可分享至QQ、微信、朋友圈、微博等社交平臺;

7.通話錄音:支持大部分安卓手機雙模雙卡雙向通話錄音。

(4)訊飛語點小V(車載藍牙硬件):

1)產(chǎn)品介紹:作為科大訊飛重點打造的軟硬件一體化產(chǎn)品,語點車載聲控電話采用智能語音喚醒技術、高效的語音識別技術、流暢動聽的語音合成技術,并結(jié)合先進的AEC(回聲消除技術)和AES(噪聲抑制技術),成就其卓越的通話音質(zhì)。在行車過程中,全程采用語音操控的交互方式,無需觸碰按鈕即可撥打和接聽電話;和手機連接后,自動同步通訊錄,使用簡單便捷,將為消費者帶來前所未有的安全體驗。

2)功能特色:

1、6個月超高續(xù)航時間,10小時長連續(xù)通話;

2、具有語音播發(fā)短信,APP智能應用等多種功能,還有貼心的隱私保護設計,在有私密來電時,可一鍵切回手機通話。

3、語點車載聲控電話擁有藍牙音頻串流播放功能(A2DP),可智能播放手機音樂和導航指令,高清立體音質(zhì)清晰悅耳,來電自動暫停,結(jié)束自動啟動,為用戶提供極致的娛樂體驗。

3)產(chǎn)品不足:

1.不能主動中斷通話,必須等對方掛斷;

2.對車載環(huán)境識別有待改進,當在車門外來電話時,因為藍牙還連著,所以默認是由車內(nèi)小V接聽,需要手動把藍牙關閉,才能轉(zhuǎn)到手機上。

3.喇叭聲音較小,車內(nèi)聲音稍大一些,就聽不到了;

4.只支持綁定的手機號,對于有多個號碼的用戶來說,沒綁定的號碼只能用手機接聽。

5.目前的固件版本只支持普通話,不支持方言。

云知聲主要產(chǎn)品:

(1)語音魔方解決方案:

1)產(chǎn)品介紹:語音魔方是智能語音交互的整體解決方案,讓智能設備聽懂用戶的話,用戶說話就能實現(xiàn)操作和控制;方案適用于智能電視、智能家居、車載、可穿戴設備;方案整合語音識別、語義理解、知識圖譜等云知聲核心技術,經(jīng)過數(shù)年專業(yè)語音交互的積淀和幾代產(chǎn)品的更新,傾心打造。

2)應用場景:車載環(huán)境、可穿戴設備、智能電視語音交互方案;

(2)智能語音導航解決方案:

1)IVR電話語音導航:通過將客戶的自然語音進行轉(zhuǎn)寫和翻譯,并通過基于自然語言的語義分析系統(tǒng)與企業(yè)IVR語音系統(tǒng)對接,為企業(yè)提供智能電話語音導航方案;用戶只用輕松的說出想要的服務內(nèi)容,就可以找到自助服務的入口,并完成自助服務。

2)語音分析系統(tǒng):語音分析系統(tǒng)將用戶和坐席的連續(xù)通話錄音轉(zhuǎn)寫成文字,通過事先建立的業(yè)務模型和業(yè)務規(guī)則對文本結(jié)果進行深入的數(shù)據(jù)挖掘。其中,可以對坐席的語音進行質(zhì)檢,保障業(yè)務的合規(guī)和完整性;對客戶的語音可以進行大數(shù)據(jù)處理,了解客戶的來電需求,挖掘用戶潛在的商業(yè)機會。

3)智能語音對話系統(tǒng):該系統(tǒng)可以提供智能化的高級人機語音交互方案,通過對客戶知識庫系統(tǒng)的梳理,通過關鍵字匹配和建立對話模型等方式,最大限度的利用客戶的知識庫系統(tǒng)實現(xiàn)自助服務。該系統(tǒng)可以應用于智能客戶領域,可以在網(wǎng)頁客服,微信客戶,電商客服中幫助降低成本,提高服務質(zhì)量。

4)手機語音導航系統(tǒng):該系統(tǒng)基于公有云/私有云架構,為行業(yè)客戶提供定制化的手機APP語音導航方案;通過智能語音導航改變傳統(tǒng)的按鍵式自助服務,用戶使用自然語音與系統(tǒng)交互,實現(xiàn)菜單扁平化,提升用戶滿意度,減輕人工服務壓力,降低運營成本。

(3)云知聲語音輸入法:

1)產(chǎn)品介紹:云知聲輸入法是一款語音輸入超準的手機輸入法。讓手機用戶不再糾結(jié)于方寸鍵盤間頻繁點選,用語音輕松輸入文字。其語音識別反應快、識別準;針對噪音、口音、輸入標點/數(shù)字、網(wǎng)絡條件等進行了優(yōu)化,讓語音輸入更有效、更實用??蓪崿F(xiàn)在線和離線語音識別,并且能自由切換在線/離線引擎。來自云知聲語音識別引擎的強大支持。你值得信賴!

2)功能特色:

1.語音識別準:平均準確率超過93%;

2.識別反應快:Wi-Fi或3G下幾乎實時返回識別結(jié)果;

3.語音輸入快:每分鐘輕松輸入200-300字,非語音輸入方式望塵莫及;

4.不怕有口音:完美識別標準普通話及有口音的普通話;

5.語音輸入數(shù)字:可識別數(shù)字并輸出適合的格式;

6.抗噪聲技術:在吵雜街道環(huán)境也可以順暢輸入;

7.超省流量:輸入100字只需要20-40kB流量,1M流量可輸入2500字;

8.自動加標點:智能引擎根據(jù)用戶輸入內(nèi)容為用戶添加必要的標點符號。

(4)語控精靈

1)產(chǎn)品介紹:

語控精靈是由北京云知聲信息技術有限公司研發(fā)的一款語音軟件。無需連接網(wǎng)絡,通過語音即可操作手機功能,打電話給朋友,發(fā)短信給朋友,打開應用,開關手機功能。打電話、發(fā)短信、開應用隨你語控;讓手機隨時隨地聽懂你。

2)功能特色:

1 .通過點擊桌面懸浮窗來快速啟動語控操作;

2 .通過貼近耳朵(需要有陀螺儀硬件支持,搖一搖快捷啟動語控操作;

3 .通過語音播報可以徹底釋放手眼操作,提高操作安全性;

4 .在聯(lián)網(wǎng)狀態(tài)下,可以通過語音輸入短信內(nèi)容,而且所占流量極?。?/p>

5 .支持語言:普通話

十一、總結(jié)

語音識別早已經(jīng)滲透入我們的平常生活中,作為未來交互入口的第一道門檻,要突破的難點還有很多很多,除了一些技術方面的突破點,在產(chǎn)品和用戶心智方面也仍需時代的引領。

1、場景承載點:

目前近場語音識別場景的識別準確率已經(jīng)很高了,而且語音識別作為技術已經(jīng)有了一個明星的產(chǎn)品承載點,那就是訊飛語音輸入法。但是面臨挑戰(zhàn)的恰恰不是產(chǎn)品的語音識別準確率不夠高,而是沒有一個用戶可信賴且相對信息隱秘化的場景承載點。

用戶使用手機和電腦的時間,大部分人的80%的時間都是在非私人化的時間里,無論是上班族還是學生,大多處在一個至少是2人或是2人以上的空間場景中,因此要使用語音識別,必須要發(fā)出聲音才能進行交互的一些場景,大家不愿意使用更高效的語音交互,而是仍然選擇用手來交互,因此對于一門技術缺乏場景承載點,是一個及其尷尬的局面,這極大的阻礙了新技術的普及;而未來的語音交互場景則更多的是依賴于私人的熟人場景下(家庭,私家車等);這些場景可能更多的也是工具式交互,至于情感類的交互估計沒有多少空間(除了老人和孩子)。

場景優(yōu)化展望:上面提到的問題,其實仍然屬于信息的隱秘化問題,公共場合下大家在進行語音溝通時,信息是開放的,周圍人是可以獲取到你交互的私密信息。但是如果有一個小小的硬件可以戴在喉結(jié)處,在不發(fā)聲或者是很小的聲音下,我們通過硬件發(fā)大處理收集音波信息和振動信息,結(jié)合處理是否可能達到一個靜態(tài)的只有一個人能聽到的語音識別從而進行語音交互,這樣就可以解決信息泄露帶來的場景尷尬。

2、圖像的信息反饋優(yōu)于音頻信息的反饋

我們?nèi)祟惖闹饕畔@取方式,80%來自于眼睛,也就是說圖像信息的豐富度遠勝于聲音,這也就決定了,任何離開了圖像的信息交互都是不可取的,也是不能大行其道的,瞎子比聾子更讓人不能接受。因此未來依托于語音識別的語音交互的同時一定不能少了圖像的交互,除非兩者不可同時共存(現(xiàn)階段的車載場景不可共存,但未來無人駕駛解放人類的眼睛之后,仍然離不開圖像交互)。未來圖片、文字是否還有其他的呈現(xiàn)載體,而不僅僅依托于手機、電腦,眼鏡是否也可以呢,當然還得繼續(xù)摸索。

參考文章鏈接如下:

http://www.itdecent.cn/p/8041e1f4fdf3

http://www.itdecent.cn/p/a3e2915a3783

http://www.itdecent.cn/p/1cfa15eaadfe

http://www.itdecent.cn/p/2c99885b9a8f

http://www.itdecent.cn/p/60ef7117a612

https://www.zhihu.com/search?type=content&q=%E8%AF%AD%E9%9F%B3%E6%BF%80%E6%B4%BB%E6%A3%80%E6%B5%8B%E7%9A%84%E9%9A%BE%E7%82%B9

http://www.itdecent.cn/p/350a4f447a5f

http://www.itdecent.cn/p/c088c89a7f09

http://www.itdecent.cn/p/45a764b53474

http://www.itdecent.cn/p/7c94467f58ff

http://www.woshipm.com/pd/894645.html

http://www.itdecent.cn/p/dc8954aebbef

http://www.itdecent.cn/p/3edca44c3e53

https://blog.csdn.net/zhinengxuexi/article/details/89355659

https://blog.csdn.net/baidu_31437863/article/details/82807224

https://zhuanlan.zhihu.com/p/43279047

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容