Python 驗證碼識別

這里會用到

安裝

下載安裝 tesseract

安裝pytesseract? 和 ?Pillow

pip install pytesseract

pip install Pillow

這里只說winsows系統(tǒng)下的安裝linux,在利用pytesseract調(diào)用tesseract時遇到以下錯誤:

FileNotFoundError: [WinError 2] 系統(tǒng)找不到指定的文件。

于是我看了下pytesseract源碼,發(fā)現(xiàn)有這樣的一行

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY

tesseract_cmd = 'tesseract'

估計windows系統(tǒng)要手工添加環(huán)境變量,所以才產(chǎn)生的問題,于是又將tesseract添加到環(huán)境變量Path中,但還是會報錯:

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata')

這個是eng.traineddata文件路徑有誤才會出現(xiàn)的錯誤。

解決辦法:

先查看tesseract有沒有這個語言包,有CMD中輸入命令:

tesseract --list-langs

結(jié)果:

List of available languages (2):

eng

osd

然后再查看然后再google下的,發(fā)現(xiàn)還是tesseract的環(huán)境變量的問題,找到了下面這一句話

Please make sure the TESSDATA_PREFIX environment variableisset to the parent directory of your"tessdata"directory.

于是新建的一個TESSDATA_PREFIX指定"tessdata"的上級目錄也就是"C:\Program Files (x86)\Tesseract-OCR"


windows的安裝也完成。

先用一個簡單的驗證碼測試一下:



from PIL import Image

import pytesseract

result = pytesseract.image_to_string(Image.open(r'F:\pachong\PIN\PIN_ws\692.jpg',"r"), lang='eng')

print(result)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容