很多pdf文檔是掃描版的,也就是圖片,無法提取文字,使用很不方便。通過結合以下兩個利器可以很方便的把pdf轉(zhuǎn)為文本。
1. 把pdf文檔轉(zhuǎn)為多張圖片
可以通過XpdfReader工具把pdf文檔轉(zhuǎn)為一組圖片。
假設要把1.pdf轉(zhuǎn)為一組jpg圖片,放到test目錄下??梢允褂靡韵旅睿?/p>
pdfimages -j 1.pdf test
下載地址:https://www.xpdfreader.com/download.html
2. 通過OCR識別圖片中的文字
使用谷歌的OCR識別工具tesseract把文字提取出來。
把圖片1.jpg轉(zhuǎn)為文字保存在1.txt中,可以使用以下命令:
tesseract 1.jpg 1.txt -l chi_sim
后面的參數(shù)-l chi_sim表示要轉(zhuǎn)換的文字是中文。
如果想一次轉(zhuǎn)換很多張圖片,可以把要轉(zhuǎn)換的圖片文件路徑寫入到一個文本文件中,比如in.txt:
1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg
使用以下命令一次性全部轉(zhuǎn)換保存到out.txt中:
tesseract in.txt out.txt -l chi_sim
下載地址:https://github.com/tesseract-ocr/tesseract
搞定,收工,如有疑問或建議歡迎留言討論。