希望通過?語音輸入?提高輸入效率,甚至代替手工輸入,并不是什么新鮮事。
很久以前,IBM 就推出了一款 軟件工具?「ViaVoice」?,希望能夠幫助電腦用戶使用 說出自然語言來代替手工打字。然而,這款軟件除了在特定行業(yè)以外,并沒有大范圍流行起來。?
直到近年來,錘子手機的老羅搞出一個叫做「TNT工作站」的產品,再次把語音輸入作為一種主流交互方式帶到了大家面前。?然而,「TNT工作站」雖然宣傳得好,實際上網民的對其的理解是這樣的。
TNT語音交互的初衷也許是好的,但是排除技術因素,一個比較顯著問題是:
在辦公室里,我們沒法像個傻X一樣,對著電腦大喊大叫。這樣做不僅會影響到周圍同事工作,而且語音識別也會被周圍同事的談話或辦公室背景噪音所影響。
所以,這次趁著大家都在家「遠程辦公」的時候,我們也在相對安靜,相對隔絕的家庭環(huán)境下,測試了一下電腦上的「語音輸入」。
現(xiàn)在,讓我們看看,使用語音輸入到底能不能帶來文字輸入上的效率提高?
?準備工作
除了一臺 Windows(或Mac) 電腦,我們還需要準備:
* 訊飛語音輸入法 軟件(支持Windows/Mac)
* (最好外置的)麥克風
* 一個安靜封閉的室內環(huán)境
火箭君原本想使用 Windows 內置的語音識別,但是其識別效果很差,而且會提示要求我們訓練語音輸入,非常麻煩,感覺像是上個世紀的科技水平,因此我們不推薦。?
Windows下的「語音識別」設置非常復雜
另外,雖然很多筆記本都攜帶內置麥克風,這種設備用于視頻聊天也許還不錯,但是用于語音輸入的話,效果會大打折扣因此我們還是建議條件許可的朋友,盡量使用外置麥克風,無論是那種廉價的有線「小蜜蜂」,無線的藍牙耳機,還是網紅主播使用的專業(yè)麥克風,它們的效果都遠遠好于電腦內置的麥克風。
關于「環(huán)境」?,除了盡可能的安靜,還要保證一些數(shù)字設備處于靜音狀態(tài),不要發(fā)出提示音。有時說了一句長話,卻被一個短信提示聲音打斷,實在是一件非常懊惱的事情。
習慣配置
「訊飛語音輸入」安裝后允許我們根據(jù)自身偏好進行一些設置,火箭君做出了如下配置。?大家如果有更習慣更喜歡的方式,可以自行調整。
1. 按住說話
「訊飛」有兩種「聽寫模式」可供我們選擇。
*?按住說話
* 連續(xù)語音
火箭君選擇了「按住說話」模式,每說一句,讓機器聽寫一句,同時能立刻看到結果,做出必要的編輯。
而「連續(xù)語音」一旦開啟,就會一直處于聽寫狀態(tài),也因此會產生很多的誤寫,或者被噪音打斷,這種情況下,對自己的思路和表達有較高的要求。倒是比較適合當時無法立刻修改,需要事后大量編輯的場景
2.?懸浮窗
訊飛可以讓我們在桌面上單獨顯示一個「麥克風」懸浮按鈕,這個按鈕一旦按下,就進入「按住說話」的聽寫模式。這樣,我們就既能使用鍵盤快捷鍵也能使用鼠標按鈕,觸發(fā)語音輸入了。
這個懸浮窗還有一個好處,可以讓我們在沒有切換到訊飛語音輸入法時,也能夠立刻開始聽寫。
3.混合其它手動輸入法
配合上述的懸浮窗按鈕,我們混合使用了一個常用的手工輸入法,操作系統(tǒng)自帶的「微軟拼音」?!肝④浧匆簟瓜挛覀冇泻芏嘧远x的「快捷用語」,我們可以充分利用起來。
結合手工輸入自定義短語,效率更高
經過上述的選項組合,我們可以用微軟拼音手工輸入,想要省力的時候,直接按下快捷鍵或鼠標按鈕,讓訊飛語音進行聽寫,然后用手工輸入法進行編輯。
實際效果
在連續(xù)幾天「遠程辦公」的實際情況下
1. 簡單對話回復場景?
結論:非常適合
在PC上的即時通訊工具上,有時我們懶得打字回復,可以使用語音輸入法快速的將一段話變成文字發(fā)送出去。這個體驗就和微信上的「按住說話」幾乎是一樣。由于對話內容比較口語化,而且一般不會很長,所以識別率都比較高,一般無需編輯就能發(fā)送,效果非常好。
2. 撰寫 郵件 / 備忘錄 / 小段報告
結論:效率略有提升
撰寫郵件時,不可避免的會涉及很多術語,工作專用詞匯,這時語音輸入法,很容易被打斷或者產生識別錯誤。?如果郵件內容不復雜,更像是簡單對話回復的話,語音輸入還是很有用,否則的話可能效率沒有手工輸入高。
例如:?我們需要在郵件中涉及到產品名稱/型號,或者涉及到一些復雜的術語。這時,語音輸入往往會產生完全無關的識別,如果我們立刻手工修改錯誤,會造成輸入的連貫性被打斷,而如果事后修改,有可能會忘記一些內容,因此也不太適合較長或者較嚴謹?shù)?郵件/報告。
3. 連續(xù)碼字
結論:需要大規(guī)模結合手工輸入,效率提升有限
這條就相當于上一條的加強版,長篇輸入時,尤其是專業(yè)內容輸入時,語音識別成功不會太高。如果我們每時每刻要修正輸入內容,那必須要結合手工輸入法。而這樣一來,我們的思路會在「組織語言」和「手動打字」之間跳躍,輸入效率可能反而會有所下降。?當然,我們也可以連續(xù)聽寫下一段話,然后事后來修改編輯,這樣做對自己的思維和表達都要有非常高的要求,否則聽寫內容過多后,事后來看,火箭君自己也不知道自己當時在說些什么,也就無從著手編輯。
4. 其它一些問題
?對聲音環(huán)境要求較高
窗外突發(fā)的汽車鳴笛,手機的來電來信提示音都能對聽寫造成破壞。語音輸入,畢竟容錯性能還是很有限的,不能苛求。
?中英文混合輸入還是比較困難?
目前似乎也很難無縫在中英文之間切換識別,手工輸入法有時也不一定能做到,對于語音輸入,這個太難了。所以需要我們盡量好好說中文,不要動不動夾雜 「黃燜Jimmy飯」?之類的話語。
輸入習慣需要改變
這點可能才是真正的問題,火箭君沒有料到,由于長期習慣了手工輸入,對語音輸入其實還是有種天然的「初期排斥感」。使用多了以后才會慢慢適應,可能有些小伙伴也未必愿意跨過這第一道坎。
?最后
總的來說,在目前的技術水平下,語音輸入貌似不是一種理想的手工輸入替代辦法?!刚Z音輸入」在口語化內容輸入以及較短的回復上,能夠帶來比較明顯的效率提升。?但是,一旦牽涉到長篇專業(yè)的輸入時,仍舊有比較明顯的「力不從心」感。這也就理解了為什么TNT 之類以「語音」為重要賣點之一的所謂「生產力工具」,短期內難以有市場。
最后,本文就是在語音輸入和手工輸入的混合模式下寫成的。有興趣的小伙伴,如果發(fā)現(xiàn)有更好的「語音輸入」場景或效率組合的方式,不妨自己動手試試看,說不定會有驚喜。