人工智能發(fā)展六十年,幾起幾落,如今迎來(lái)又一次熱潮,深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言理解等各方面的突破,使得許多曾是天方夜譚的應(yīng)用成為可能,智能人機(jī)交互就是其中之一。作為人工智能的底層技術(shù)在語(yǔ)音識(shí)別、圖像識(shí)別的延伸與應(yīng)用,全感官輸入方式的人機(jī)交互方案近幾年內(nèi)受到了密切關(guān)注。
8.0版本中涉及到的人工智能技術(shù)其實(shí)并不新鮮,早在人工智能概念興起的之前,就有了語(yǔ)音識(shí)別等一系列的技術(shù)。但是百度輸入法真正實(shí)現(xiàn)突破,原因主要有兩方面:一是技術(shù),語(yǔ)音識(shí)別在過(guò)去只有很低的識(shí)別準(zhǔn)確率,過(guò)去的不可能現(xiàn)在變?yōu)榭赡?。華少現(xiàn)場(chǎng)挑戰(zhàn)426個(gè)字速度,其中還包括一些難以識(shí)別的詞句,百度輸入法全部識(shí)別準(zhǔn)確,同時(shí)還現(xiàn)場(chǎng)演示了語(yǔ)音速記的功能,結(jié)合百度輸入法之前的版本功能,現(xiàn)在百度輸入法具備聲紋識(shí)別、輕聲識(shí)別、識(shí)別準(zhǔn)確率高、語(yǔ)音速記、語(yǔ)音指令控制的特點(diǎn)。二是理解用戶需求,輸入法圍繞著基礎(chǔ)輸入的功能,拓展了“語(yǔ)音翻譯”、“語(yǔ)音速記”、“AR表情包”,更貼近用戶的使用習(xí)慣,豐富了用戶場(chǎng)景。AI助力,將更難的產(chǎn)品需求實(shí)現(xiàn),實(shí)現(xiàn)全感官的智能人機(jī)交互方式。
?|? 產(chǎn)品新功能介紹
發(fā)布會(huì)亮點(diǎn)展示,一項(xiàng)技術(shù)突破(DeepPeak2模型)和兩項(xiàng)功能(語(yǔ)音速記+AR表情)。
百度語(yǔ)音技術(shù)的最新突破——DeepPeak2模型,該技術(shù)全稱為“基于LSTM和CTC的上下文無(wú)關(guān)音素組合建?!?,該模型突破了沿用十幾年的傳統(tǒng)模型,能夠更充分地發(fā)揮神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)勢(shì),大幅提升中英文、多種口音、多種風(fēng)格(如朗讀、聊天、輕聲)混合輸入的識(shí)別準(zhǔn)確率,聊天場(chǎng)景下的相對(duì)正確率較行業(yè)領(lǐng)先水平提升20%,在語(yǔ)音輸入位占據(jù)主要的輸入方式的時(shí)代,這種新的技術(shù)能更適應(yīng)用戶的自然語(yǔ)言對(duì)話,提升了用戶體驗(yàn)。

語(yǔ)音識(shí)別新功能——“語(yǔ)音速記”,分為單人和針對(duì)2-3人的小型會(huì)議場(chǎng)景,可根據(jù)聲紋區(qū)分不同發(fā)言人的語(yǔ)音信息并整理,這將節(jié)省很多的時(shí)間。

斗圖功能——“AR表情”,運(yùn)用了人臉識(shí)別技術(shù)和AR技術(shù),用戶可以通過(guò)相機(jī)或相冊(cè)進(jìn)行人臉識(shí)別、制作表情包,還可以用自己的表情控制虛擬人物的形象。用戶制作出來(lái)的AR表情,可以直接通過(guò)輸入法搜索、語(yǔ)音輸入和鍵盤輸入時(shí)展示出來(lái)。

?|? 產(chǎn)品體驗(yàn),語(yǔ)音速記+AR表情
高效輸入:語(yǔ)音是全感官輸入的第一步也是很重要的一步,DeepPeak2技術(shù)模型帶來(lái)的是語(yǔ)音輸入中高速、便捷的體驗(yàn),還優(yōu)化了口語(yǔ)與朗讀混合和中英文混合的體驗(yàn),打磨了產(chǎn)品的核心能力。
智能記錄:在人工智能技術(shù)的支持下,語(yǔ)音識(shí)別的場(chǎng)景也開(kāi)始拓展?jié)M足更多用戶的需求。聲紋識(shí)別、識(shí)別準(zhǔn)確率高、快語(yǔ)速記錄的特點(diǎn)能夠滿足小型會(huì)議、課堂記錄、采訪等多種需求。
表情功能:AR表情滿足了占據(jù)著百度輸入法70%的90后用戶對(duì)于表情的拓展需求。在體驗(yàn)中AR表情可以瀏覽的與面部表情結(jié)合起來(lái)發(fā)送到社交軟件。
| ??產(chǎn)品建議
產(chǎn)品功能優(yōu)化建議:
1.語(yǔ)音速記:2-3人的小型會(huì)議從一開(kāi)始需要選擇2人或3人,面對(duì)較復(fù)雜的用戶場(chǎng)景如中途加入、4上以上就無(wú)法滿足。速記對(duì)英文識(shí)別不是很流暢,體驗(yàn)較差。
2.AR表情的功能,已經(jīng)的APP能夠?yàn)橛脩糁谱鞒鲱愃频谋砬榘夷軌蛱峁┑奶匦П劝俣容斎敕ǜ?,所以豐富特效是增強(qiáng)AR表情包使用率的辦法。
產(chǎn)品設(shè)計(jì)細(xì)節(jié)建議:
1.多人語(yǔ)音速記中,修改人物名稱需要點(diǎn)擊人物才可以,用戶在探索該功能時(shí)可能會(huì)花費(fèi)一定的時(shí)間,建議增加功能入口如設(shè)置選項(xiàng)。
2.語(yǔ)音文件中只有圖標(biāo)去確認(rèn)單人/多人語(yǔ)音文件,建議在文件名后生產(chǎn)單人/多人文件標(biāo)識(shí)。
產(chǎn)品設(shè)計(jì)方面更新建議:
這是百度輸入法的8.0版本,也是全感官輸入的1.0版本,通過(guò)全感官可以完成更高效的表達(dá)。所以設(shè)想的功能如下
核心輸入功能:語(yǔ)音全稱控制輸入,無(wú)需觸摸使用。通過(guò)簡(jiǎn)單的手勢(shì)+面部表情輸入可以實(shí)現(xiàn)一些常用且簡(jiǎn)單的交互方式。
拓展功能:與百度翻譯,百度識(shí)圖等深入合作,拓展更多輸入方式,豐富用戶場(chǎng)景,增強(qiáng)產(chǎn)品能力。