依圖進軍語音賽道,與微軟、華為達成合作,多模態(tài)成勢

12月11 日,起步于計算機視覺的依圖正式進軍語音識別領域,宣布其在全球最大的中文開源數據庫AISHELL-2中取得了短語音聽寫字錯率3.71%的好成績。

依圖還宣布與微軟合作推出依圖開放平臺,提供語音識別算法API及大量的數據集;依圖同時宣布與華為合作,結合依圖的軟件優(yōu)勢和華為昇騰(Ascend)系列芯片Atlas 300 AI加速卡的硬件優(yōu)勢,發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。

值得注意的是,依圖針對不同場景,采用了同一種語音識別算法,單個算法模型表現(xiàn)出了多場景的適用性。

信息源:

https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html

點評

目前,多家從語音或視覺出發(fā)的公司,在經過各場景的商業(yè)探索后,已形成相似判斷:AI時代最重要的交互入口不會只包含單一的語音或圖像功能,而是圖像、語音等多模態(tài)技術的融合。

在依圖之前,同樣屬于“計算機視覺四小龍”的云從已在今年10月發(fā)布全新Pyramidal-FSMN語音識別模型,將錯詞率降低至2.97%,超過受過嚴格訓練的專業(yè)人類速記員。

今年7月,智能語音公司云知聲聯(lián)合創(chuàng)始人、芯片技術負責人李宵寒也曾在接受采訪時說:“人工智能設備是讓機器更像人,這樣的話就必須提供多種感知能力,圖像是必不可少的環(huán)節(jié)?!?b>云知聲目前也確實在做圖像方面的布局。

未來,市場上會出現(xiàn)更多像云知聲、云從、依圖這樣的“跨賽道”行為;打造多模態(tài)技術能力將成為人工智能行業(yè)的重要趨勢。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容