2019.6.21更新
轉(zhuǎn)自蟲部落趙云007提供的免費音頻轉(zhuǎn)文字軟件:
軟件基于百度語音識別,正確率和速度都不錯
目前只有音頻轉(zhuǎn)文字的功能,僅支持普通話,支持批量選取音頻轉(zhuǎn)換,不限時長,免費,如下圖測試批量音頻識別正確率:
(1)比如批量識別小學(xué)生課文

(2)比如識別長達(dá)五分鐘的《荷塘月色》

(3)識別岳云鵬的相聲

3、軟件操作
打開可能慢,且軟件開啟后帶著cmd黑框。

4、軟件下載
鏈接:https://pan.baidu.com/s/1knYlZfj4PayPdHqc3LaMEA
提取碼:oslt
大家在瀏覽、工作的時候可能經(jīng)常碰到以下問題,使得我們非常惱火:
1.網(wǎng)頁限制視頻下載
2.視頻、音頻的格式亂七八糟,需要轉(zhuǎn)換的時候很不方便
3.沒有靠譜的語音識別/機(jī)器翻譯軟件
4.講座又沒有字幕,需要記錄發(fā)言人講的話非常麻煩
不過不用擔(dān)心,本次技術(shù)組針對第四點,將問題本身和衍生出來的子問題一網(wǎng)打盡,為各位提供便利的方法。
視頻語音如何轉(zhuǎn)成文字?
Step1:下載視頻
這里技術(shù)組提供了一個好用的視頻鏈接解析網(wǎng)站——視頻魚,只要輸入鏈接,就可以在站內(nèi)進(jìn)行下載(也可以用來針對國內(nèi)一些無良的視頻門戶網(wǎng)站)
網(wǎng)址:

也可以自由選擇下載的大小與格式。

Step2:轉(zhuǎn)換成音頻
格式的轉(zhuǎn)換和合并等操作,就需要一門神器——格式工廠的幫助了。
下載:

如果視頻網(wǎng)站把視頻分成了很多片段,可以下載后用之前分享的Bulk Rename Utility進(jìn)行編號,然后使用格式工廠將這些片段的視頻進(jìn)行合并。

再利用格式工廠將視頻格式轉(zhuǎn)換成需要音頻格式。

Step3:語音識別+機(jī)器翻譯
一切準(zhǔn)備工作就緒,在最后的是最困難的工作。
機(jī)翻其實目前已有很多成熟的工具,但由于目前的語音識別技術(shù)相比較機(jī)器翻譯、語音合成技術(shù)并不是非常成熟與完善,人工語音識別服務(wù)價格太高,希望低成本完成任務(wù)的我們只好使用自動轉(zhuǎn)換機(jī)翻服務(wù)。但即使利用了ai技術(shù),這也不是個簡單的活。
因此技術(shù)組特地再試用了十幾種方法后,采用了其中4種相對可行性較高的推薦給大家。
(1)訊飛聽見(科大訊飛產(chǎn)品,中文語音識別技術(shù)雄厚,處于國內(nèi)領(lǐng)先地位)

訊飛聽見是科大訊飛(也就是最近世界AI大會上曝出AI同傳包含人工環(huán)節(jié)的企業(yè),雖然是丑聞,但從另一方面說明其資格)以及一系列衍生產(chǎn)品提供了語音轉(zhuǎn)換的服務(wù),上傳文件后自動接單。
價格:機(jī)翻價格0.33元/每分鐘,有點貴【剛注冊有2個小時免費轉(zhuǎn)換時長】
速度:自動識別,1小時音頻5分鐘出稿
識別率:經(jīng)過試用有90%以上【官方:最高95%】
(實際上機(jī)翻識別率達(dá)90%以上就到了及格線,足以滿足痛點。但再想從95%往上提高,邊際效益和邊際成本都非常高,這個癢點亟待技術(shù)去滿足。不過近期科大訊飛聲稱自己的技術(shù)已經(jīng)達(dá)到了98%的識別率,在可見的未來我們使用語音轉(zhuǎn)換的效率會更高)
存在形式:網(wǎng)頁、APP
總結(jié):效果最好的一個工具,如果能夠報銷(20元/小時)或者利用注冊福利應(yīng)該是比較好的選擇
(2)錄音啦
下載:

軟件支持3個API接口、3個語種進(jìn)行音頻轉(zhuǎn)文字的服務(wù)。
價格:按時間收費,價格適中,如下圖【每臺計算機(jī)半小時免費試用】

速度:自動識別,需等待一小段時間
識別率:綜合來看在75~90%的區(qū)間,轉(zhuǎn)換完了需要校對一遍,不過也省去了輸入大部分文字的功夫,勉強(qiáng)可用(推薦云知聲,試用下來識別率較高,在90%左右)
存在形式:PC端
總結(jié):前期免費,目前開始收費,購買的都是目前國內(nèi)比較有實力的語音識別產(chǎn)品的引擎,起到一個整合性服務(wù)的效果??傮w來說比較有性價比,速度也不錯,但精度不高還需人工校對
(3)speech to text

國外的語音轉(zhuǎn)換產(chǎn)品,需要科學(xué)上網(wǎng)
價格:免費
速度:需要自動播放一遍,效率很低
識別率:70~80%,非常一般(注意語音模型改成普通話,關(guān)鍵詞輸入多一點,可以提高識別率)
存在形式:網(wǎng)頁
https://speech-to-text-demo.ng.bluemix.net/
總結(jié):雖然它需要fanqiang,雖然它需要自動放一遍,但是在目前的環(huán)境下免費的你還能說什么呢?不推薦,僅作為臨時或小段語音轉(zhuǎn)換時的工具
(4)有道云筆記
閑的沒事做可以利用手機(jī)上微信、搜狗、百度、訊飛等語音輸入APP一直按著輸入,當(dāng)然這樣比較傻...
推薦使用有道云筆記的語音速記功能,并且不需要一直點擊。

價格:免費
速度:需要記錄一遍,最長可支持60分鐘
識別率:90%以上,效果比較好
存在形式:APP(獨占語音速記功能)
總結(jié):免費的總有這么多那么多的限制,但比起speech to text,有道云筆記的語音速記是一個更好的選擇,除了你需要身邊再放著一塊手機(jī)