掃描版PDF文檔轉(zhuǎn)文本方法

很多pdf文檔是掃描版的,也就是圖片,無法提取文字,使用很不方便。通過結合以下兩個利器可以很方便的把pdf轉(zhuǎn)為文本。

1. 把pdf文檔轉(zhuǎn)為多張圖片

可以通過XpdfReader工具把pdf文檔轉(zhuǎn)為一組圖片。
假設要把1.pdf轉(zhuǎn)為一組jpg圖片,放到test目錄下??梢允褂靡韵旅睿?/p>

pdfimages -j 1.pdf test

下載地址:https://www.xpdfreader.com/download.html

2. 通過OCR識別圖片中的文字

使用谷歌的OCR識別工具tesseract把文字提取出來。
把圖片1.jpg轉(zhuǎn)為文字保存在1.txt中,可以使用以下命令:

tesseract 1.jpg 1.txt -l chi_sim

后面的參數(shù)-l chi_sim表示要轉(zhuǎn)換的文字是中文。

如果想一次轉(zhuǎn)換很多張圖片,可以把要轉(zhuǎn)換的圖片文件路徑寫入到一個文本文件中,比如in.txt

1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg

使用以下命令一次性全部轉(zhuǎn)換保存到out.txt中:

tesseract in.txt out.txt -l chi_sim

下載地址:https://github.com/tesseract-ocr/tesseract

搞定,收工,如有疑問或建議歡迎留言討論。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容