Tesseract-OCR(圖像文字識(shí)別)

Tesseract-OCR入門使用1
Tesseract-OCR入門使用2
Tesseract-OCR入門使用3
Tesseract API Example

環(huán)境:

安裝:

  • 安裝tesseract-orc的時(shí)候需要自行選擇安裝的語言,一些其他國(guó)家的語言可以不選擇安裝,我之按安裝了中文,英文。安裝過程和其他軟件一樣。
  • pip install PIL
  • pip install pytesseract

配置環(huán)境

1.設(shè)置 tesseract-orc路徑

默認(rèn)情況下tesseract-orc是不被添加到系統(tǒng)的path路徑的,這樣在使用的時(shí)候發(fā)生FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件錯(cuò)誤。

解決方法:

  • 方法1:將 C:\Program Files (x86)\Tesseract-OCR添加到系統(tǒng)路徑(路徑因安裝過程而異)
  • 方法2:修改pytesseract.py文件,修改方法如下
    tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
  1. 設(shè)置訓(xùn)練集的位置

下載的默認(rèn)訓(xùn)練集也沒有添加到系統(tǒng)路徑,會(huì)報(bào)錯(cuò)pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解決方法:
設(shè)置環(huán)境變量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

實(shí)例程序

from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('seven.png', lang='chi_sim')   # 識(shí)別中文
print(text)

其他版本

Ubuntu版本:

1.tesseract-ocr安裝

  • sudo apt-get install tesseract-ocr

2.pytesseract安裝

  • sudo pip install pytesseract

3.Pillow 安裝

  • sudo pip install pillow

其他linux版本(如centos):
1.tesseract-ocr安裝
沒找到直接命令安裝,所以需要手動(dòng)下載安裝包。
https://github.com/tesseract-ocr/tesseract
在上述地址中下載最新的tesseract-ocr的安裝包,并解壓。
通過以下命令安裝:
(1)cd tesseract-3.04.01

(2)./autogen.sh

(3)./configure
注意,如果出現(xiàn)error: leptonica not found,需要下載安裝leptonica
http://www.leptonica.org/download.html

(4)make

(5)make install

(6)ldconfig

2.pytesseract安裝
sudo pip install pytesseract

3.Pillow 安裝
sudo pip install pillow

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容