12月11 日,起步于計算機視覺的依圖正式進軍語音識別領域,宣布其在全球最大的中文開源數據庫AISHELL-2中取得了短語音聽寫字錯率3.71%的好成績。
依圖還宣布與微軟合作推出依圖開放平臺,提供語音識別算法API及大量的數據集;依圖同時宣布與華為合作,結合依圖的軟件優(yōu)勢和華為昇騰(Ascend)系列芯片Atlas 300 AI加速卡的硬件優(yōu)勢,發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。
值得注意的是,依圖針對不同場景,采用了同一種語音識別算法,單個算法模型表現(xiàn)出了多場景的適用性。
信息源:
https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html
點評
目前,多家從語音或視覺出發(fā)的公司,在經過各場景的商業(yè)探索后,已形成相似判斷:AI時代最重要的交互入口不會只包含單一的語音或圖像功能,而是圖像、語音等多模態(tài)技術的融合。
在依圖之前,同樣屬于“計算機視覺四小龍”的云從已在今年10月發(fā)布全新Pyramidal-FSMN語音識別模型,將錯詞率降低至2.97%,超過受過嚴格訓練的專業(yè)人類速記員。
今年7月,智能語音公司云知聲聯(lián)合創(chuàng)始人、芯片技術負責人李宵寒也曾在接受采訪時說:“人工智能設備是讓機器更像人,這樣的話就必須提供多種感知能力,圖像是必不可少的環(huán)節(jié)?!?b>云知聲目前也確實在做圖像方面的布局。
未來,市場上會出現(xiàn)更多像云知聲、云從、依圖這樣的“跨賽道”行為;打造多模態(tài)技術能力將成為人工智能行業(yè)的重要趨勢。