百度輸入法8.0版本發(fā)布會(huì)后的“觀后感”

人工智能發(fā)展六十年,幾起幾落,如今迎來(lái)又一次熱潮,深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言理解等各方面的突破,使得許多曾是天方夜譚的應(yīng)用成為可能,智能人機(jī)交互就是其中之一。作為人工智能的底層技術(shù)在語(yǔ)音識(shí)別、圖像識(shí)別的延伸與應(yīng)用,全感官輸入方式的人機(jī)交互方案近幾年內(nèi)受到了密切關(guān)注。

8.0版本中涉及到的人工智能技術(shù)其實(shí)并不新鮮,早在人工智能概念興起的之前,就有了語(yǔ)音識(shí)別等一系列的技術(shù)。但是百度輸入法真正實(shí)現(xiàn)突破,原因主要有兩方面:一是技術(shù),語(yǔ)音識(shí)別在過(guò)去只有很低的識(shí)別準(zhǔn)確率,過(guò)去的不可能現(xiàn)在變?yōu)榭赡?。華少現(xiàn)場(chǎng)挑戰(zhàn)426個(gè)字速度,其中還包括一些難以識(shí)別的詞句,百度輸入法全部識(shí)別準(zhǔn)確,同時(shí)還現(xiàn)場(chǎng)演示了語(yǔ)音速記的功能,結(jié)合百度輸入法之前的版本功能,現(xiàn)在百度輸入法具備聲紋識(shí)別、輕聲識(shí)別、識(shí)別準(zhǔn)確率高、語(yǔ)音速記、語(yǔ)音指令控制的特點(diǎn)。二是理解用戶需求,輸入法圍繞著基礎(chǔ)輸入的功能,拓展了“語(yǔ)音翻譯”、“語(yǔ)音速記”、“AR表情包”,更貼近用戶的使用習(xí)慣,豐富了用戶場(chǎng)景。AI助力,將更難的產(chǎn)品需求實(shí)現(xiàn),實(shí)現(xiàn)全感官的智能人機(jī)交互方式。

?|? 產(chǎn)品新功能介紹

發(fā)布會(huì)亮點(diǎn)展示,一項(xiàng)技術(shù)突破(DeepPeak2模型)和兩項(xiàng)功能(語(yǔ)音速記+AR表情)。

百度語(yǔ)音技術(shù)的最新突破——DeepPeak2模型,該技術(shù)全稱為“基于LSTM和CTC的上下文無(wú)關(guān)音素組合建?!?,該模型突破了沿用十幾年的傳統(tǒng)模型,能夠更充分地發(fā)揮神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)勢(shì),大幅提升中英文、多種口音、多種風(fēng)格(如朗讀、聊天、輕聲)混合輸入的識(shí)別準(zhǔn)確率,聊天場(chǎng)景下的相對(duì)正確率較行業(yè)領(lǐng)先水平提升20%,在語(yǔ)音輸入位占據(jù)主要的輸入方式的時(shí)代,這種新的技術(shù)能更適應(yīng)用戶的自然語(yǔ)言對(duì)話,提升了用戶體驗(yàn)。


百度語(yǔ)音部門總監(jiān)高亮在介紹技術(shù)模型

語(yǔ)音識(shí)別新功能——“語(yǔ)音速記”,分為單人和針對(duì)2-3人的小型會(huì)議場(chǎng)景,可根據(jù)聲紋區(qū)分不同發(fā)言人的語(yǔ)音信息并整理,這將節(jié)省很多的時(shí)間。


現(xiàn)場(chǎng)演示多人的語(yǔ)音速記功能

斗圖功能——“AR表情”,運(yùn)用了人臉識(shí)別技術(shù)和AR技術(shù),用戶可以通過(guò)相機(jī)或相冊(cè)進(jìn)行人臉識(shí)別、制作表情包,還可以用自己的表情控制虛擬人物的形象。用戶制作出來(lái)的AR表情,可以直接通過(guò)輸入法搜索、語(yǔ)音輸入和鍵盤輸入時(shí)展示出來(lái)。


AR表情

?|? 產(chǎn)品體驗(yàn),語(yǔ)音速記+AR表情

高效輸入:語(yǔ)音是全感官輸入的第一步也是很重要的一步,DeepPeak2技術(shù)模型帶來(lái)的是語(yǔ)音輸入中高速、便捷的體驗(yàn),還優(yōu)化了口語(yǔ)與朗讀混合和中英文混合的體驗(yàn),打磨了產(chǎn)品的核心能力。

智能記錄:在人工智能技術(shù)的支持下,語(yǔ)音識(shí)別的場(chǎng)景也開(kāi)始拓展?jié)M足更多用戶的需求。聲紋識(shí)別、識(shí)別準(zhǔn)確率高、快語(yǔ)速記錄的特點(diǎn)能夠滿足小型會(huì)議、課堂記錄、采訪等多種需求。

表情功能:AR表情滿足了占據(jù)著百度輸入法70%的90后用戶對(duì)于表情的拓展需求。在體驗(yàn)中AR表情可以瀏覽的與面部表情結(jié)合起來(lái)發(fā)送到社交軟件。

| ??產(chǎn)品建議

產(chǎn)品功能優(yōu)化建議:

1.語(yǔ)音速記:2-3人的小型會(huì)議從一開(kāi)始需要選擇2人或3人,面對(duì)較復(fù)雜的用戶場(chǎng)景如中途加入、4上以上就無(wú)法滿足。速記對(duì)英文識(shí)別不是很流暢,體驗(yàn)較差。

2.AR表情的功能,已經(jīng)的APP能夠?yàn)橛脩糁谱鞒鲱愃频谋砬榘夷軌蛱峁┑奶匦П劝俣容斎敕ǜ?,所以豐富特效是增強(qiáng)AR表情包使用率的辦法。

產(chǎn)品設(shè)計(jì)細(xì)節(jié)建議:

1.多人語(yǔ)音速記中,修改人物名稱需要點(diǎn)擊人物才可以,用戶在探索該功能時(shí)可能會(huì)花費(fèi)一定的時(shí)間,建議增加功能入口如設(shè)置選項(xiàng)。

2.語(yǔ)音文件中只有圖標(biāo)去確認(rèn)單人/多人語(yǔ)音文件,建議在文件名后生產(chǎn)單人/多人文件標(biāo)識(shí)。

產(chǎn)品設(shè)計(jì)方面更新建議:

這是百度輸入法的8.0版本,也是全感官輸入的1.0版本,通過(guò)全感官可以完成更高效的表達(dá)。所以設(shè)想的功能如下

核心輸入功能:語(yǔ)音全稱控制輸入,無(wú)需觸摸使用。通過(guò)簡(jiǎn)單的手勢(shì)+面部表情輸入可以實(shí)現(xiàn)一些常用且簡(jiǎn)單的交互方式。

拓展功能:與百度翻譯,百度識(shí)圖等深入合作,拓展更多輸入方式,豐富用戶場(chǎng)景,增強(qiáng)產(chǎn)品能力。



這篇文章是我在參加了百度輸入法8.0版的發(fā)布會(huì)現(xiàn)場(chǎng)后寫下的,文章有些地方寫的不是很好請(qǐng)指正,非常感謝。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容