【技術(shù)組工具分享】綜合教程-視頻語音轉(zhuǎn)文字(2019.6.21更新)

2019.6.21更新

轉(zhuǎn)自蟲部落趙云007提供的免費音頻轉(zhuǎn)文字軟件:

軟件基于百度語音識別,正確率和速度都不錯

目前只有音頻轉(zhuǎn)文字的功能,僅支持普通話,支持批量選取音頻轉(zhuǎn)換,不限時長,免費,如下圖測試批量音頻識別正確率:

(1)比如批量識別小學(xué)生課文


(2)比如識別長達(dá)五分鐘的《荷塘月色》


(3)識別岳云鵬的相聲


3、軟件操作

打開可能慢,且軟件開啟后帶著cmd黑框。


4、軟件下載

鏈接:https://pan.baidu.com/s/1knYlZfj4PayPdHqc3LaMEA

提取碼:oslt


大家在瀏覽、工作的時候可能經(jīng)常碰到以下問題,使得我們非常惱火:

1.網(wǎng)頁限制視頻下載

2.視頻、音頻的格式亂七八糟,需要轉(zhuǎn)換的時候很不方便

3.沒有靠譜的語音識別/機(jī)器翻譯軟件

4.講座又沒有字幕,需要記錄發(fā)言人講的話非常麻煩

不過不用擔(dān)心,本次技術(shù)組針對第四點,將問題本身和衍生出來的子問題一網(wǎng)打盡,為各位提供便利的方法。



視頻語音如何轉(zhuǎn)成文字?

Step1:下載視頻

這里技術(shù)組提供了一個好用的視頻鏈接解析網(wǎng)站——視頻魚,只要輸入鏈接,就可以在站內(nèi)進(jìn)行下載(也可以用來針對國內(nèi)一些無良的視頻門戶網(wǎng)站)

網(wǎng)址:

http://shipinyu.com/


視頻魚使用圖(1)

也可以自由選擇下載的大小與格式。

視頻魚使用圖(2)

Step2:轉(zhuǎn)換成音頻

格式的轉(zhuǎn)換和合并等操作,就需要一門神器——格式工廠的幫助了。

下載:

http://www.pcfreetime.com/

格式工廠適用文件

如果視頻網(wǎng)站把視頻分成了很多片段,可以下載后用之前分享的Bulk Rename Utility進(jìn)行編號,然后使用格式工廠將這些片段的視頻進(jìn)行合并。


格式工廠視頻合并圖

再利用格式工廠將視頻格式轉(zhuǎn)換成需要音頻格式。

格式工廠轉(zhuǎn)換圖

Step3:語音識別+機(jī)器翻譯

一切準(zhǔn)備工作就緒,在最后的是最困難的工作。

機(jī)翻其實目前已有很多成熟的工具,但由于目前的語音識別技術(shù)相比較機(jī)器翻譯、語音合成技術(shù)并不是非常成熟與完善,人工語音識別服務(wù)價格太高,希望低成本完成任務(wù)的我們只好使用自動轉(zhuǎn)換機(jī)翻服務(wù)。但即使利用了ai技術(shù),這也不是個簡單的活。

因此技術(shù)組特地再試用了十幾種方法后,采用了其中4種相對可行性較高的推薦給大家。

(1)訊飛聽見(科大訊飛產(chǎn)品,中文語音識別技術(shù)雄厚,處于國內(nèi)領(lǐng)先地位)


訊飛聽見網(wǎng)頁使用圖

訊飛聽見是科大訊飛(也就是最近世界AI大會上曝出AI同傳包含人工環(huán)節(jié)的企業(yè),雖然是丑聞,但從另一方面說明其資格)以及一系列衍生產(chǎn)品提供了語音轉(zhuǎn)換的服務(wù),上傳文件后自動接單。

價格:機(jī)翻價格0.33元/每分鐘,有點貴【剛注冊有2個小時免費轉(zhuǎn)換時長】

速度:自動識別,1小時音頻5分鐘出稿

識別率:經(jīng)過試用有90%以上【官方:最高95%】

(實際上機(jī)翻識別率達(dá)90%以上就到了及格線,足以滿足痛點。但再想從95%往上提高,邊際效益和邊際成本都非常高,這個癢點亟待技術(shù)去滿足。不過近期科大訊飛聲稱自己的技術(shù)已經(jīng)達(dá)到了98%的識別率,在可見的未來我們使用語音轉(zhuǎn)換的效率會更高)

存在形式:網(wǎng)頁、APP

https://www.iflyrec.com/

總結(jié):效果最好的一個工具,如果能夠報銷(20元/小時)或者利用注冊福利應(yīng)該是比較好的選擇

(2)錄音啦

下載:

https://www.luyinla.com/

錄音啦使用圖

軟件支持3個API接口、3個語種進(jìn)行音頻轉(zhuǎn)文字的服務(wù)。

價格:按時間收費,價格適中,如下圖【每臺計算機(jī)半小時免費試用】


錄音啦價格圖

速度:自動識別,需等待一小段時間

識別率:綜合來看在75~90%的區(qū)間,轉(zhuǎn)換完了需要校對一遍,不過也省去了輸入大部分文字的功夫,勉強(qiáng)可用(推薦云知聲,試用下來識別率較高,在90%左右)

存在形式:PC端

總結(jié):前期免費,目前開始收費,購買的都是目前國內(nèi)比較有實力的語音識別產(chǎn)品的引擎,起到一個整合性服務(wù)的效果??傮w來說比較有性價比,速度也不錯,但精度不高還需人工校對

(3)speech to text

speech to text使用圖

國外的語音轉(zhuǎn)換產(chǎn)品,需要科學(xué)上網(wǎng)

價格:免費

速度:需要自動播放一遍,效率很低

識別率:70~80%,非常一般(注意語音模型改成普通話,關(guān)鍵詞輸入多一點,可以提高識別率)

存在形式:網(wǎng)頁

https://speech-to-text-demo.ng.bluemix.net/

總結(jié):雖然它需要fanqiang,雖然它需要自動放一遍,但是在目前的環(huán)境下免費的你還能說什么呢?不推薦,僅作為臨時或小段語音轉(zhuǎn)換時的工具

(4)有道云筆記

閑的沒事做可以利用手機(jī)上微信、搜狗、百度、訊飛等語音輸入APP一直按著輸入,當(dāng)然這樣比較傻...

推薦使用有道云筆記語音速記功能,并且不需要一直點擊。


有道云筆記使用圖

價格:免費

速度:需要記錄一遍,最長可支持60分鐘

識別率:90%以上,效果比較好

存在形式:APP(獨占語音速記功能)

總結(jié):免費的總有這么多那么多的限制,但比起speech to text,有道云筆記的語音速記是一個更好的選擇,除了你需要身邊再放著一塊手機(jī)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容