這里不講那些邏輯和原理,反正本人也搞不清,就談?wù)勛约旱陌惭b時(shí)候遇到的問(wèn)題。
系統(tǒng)是win8.1
tesseract
tesseract安裝需要到指定鏈接去下載(https://digi.bib.uni-mannheim.de/tesseract/)
此次選擇的
tesseract-ocr-setup-3.05.01.exe
為什么選它,是因?yàn)楹竺鎡esserocr所要下載的版本必須和tesseract相對(duì)應(yīng),本來(lái)是下載tesseract-ocr-setup-5.0.0.exe的,但是tesserocr沒(méi)有對(duì)應(yīng)的版本,所以就放棄了,這是其一。
其二,所有含有dev的都是開(kāi)發(fā)版,不帶dev的是穩(wěn)定版,所有選擇tesseract-ocr-setup-3.05.01.exe

下載完成之后,選擇安裝,這個(gè)就比較簡(jiǎn)單了,點(diǎn)擊next就行了。

如圖2所示,此時(shí)可以勾選Additional?language?data(download)選項(xiàng)來(lái)安裝OCR識(shí)別支持的語(yǔ)言包,這樣OCR便可以識(shí)別多國(guó)語(yǔ)言。然后一路點(diǎn)擊Next按鈕即可。(當(dāng)然也可以選擇指定目錄安裝)安裝時(shí)間蠻久的。
然后cmd打開(kāi)命令行,輸入tesseract -v會(huì)報(bào)錯(cuò)

于是配置兩個(gè)環(huán)境變量,我的電腦——右擊——屬性——高級(jí)系統(tǒng)設(shè)置——高級(jí)——環(huán)境變量——
系統(tǒng)變量——path(輸入變量名path,變量值D:\Python3.6.0\pythoncorrelation\Tesseract-OCR,這個(gè)值就是Tesseract安裝的位置即所在路徑)這是其一,其二,系統(tǒng)變量——新建(輸入變量名TESSDATA_PREFIX,變量值D:\Python3.6.0\pythoncorrelation\Tesseract-OCR,這個(gè)值就是Tesseract安裝的位置即所在路徑)
cmd打開(kāi)命令行,輸入tesseract -v,正確的應(yīng)該報(bào)

關(guān)于配置兩個(gè)環(huán)境變量的問(wèn)題,有些文章要求有,有些文章要求沒(méi)有,這里統(tǒng)一記錄下來(lái)了。
tesserocr
安裝tesserocr的時(shí)候有遇到很多坑,先是用pip3 install tesserocr或pip3 install tesserocr pillow下載安裝均下載失敗。

于是轉(zhuǎn)向輪子下載。輪子下載之前,需要知道自己的電腦的python和哪個(gè)輪子相配,可以cmd中輸入,本電腦是64位,如圖10中方框輸入。
cmd中輸入:python
>>>import?pip
>>>import?pip._internal
>>>print(pip._internal.pep425tags.get_supported())

查看到對(duì)應(yīng)的版本為cp36,cp36m,win64,下載安裝的版本為win_amd64。
下載地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
【電腦是32位的可以試試這個(gè)
import pip
print(pip.pep425tags.get_supported())】

紅色方框是tesseract和tesserocr對(duì)應(yīng)關(guān)系,藍(lán)底白字是python和tesserocr的對(duì)應(yīng)關(guān)系,
但是,到這里悲劇來(lái)了,tesserocr不能下載,總是說(shuō)是網(wǎng)速的問(wèn)題,內(nèi)網(wǎng)和外網(wǎng),大家都懂的,所以請(qǐng)求看到這篇文章的大神,如果備份了
tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
私聊一個(gè),發(fā)份給我吧,網(wǎng)上也找不到現(xiàn)成的已經(jīng)下載好的了。多謝好心人。
(能下載下來(lái)的都是一些殘片,不能安裝,會(huì)報(bào)錯(cuò),提示如圖4)file is
not a zip file(不是完整的文件)

后續(xù):
如果能下載下來(lái),怎么安裝,網(wǎng)上回答也是五花八門的,個(gè)人感覺(jué)最正確的應(yīng)該是將tesserocr放入到script包里去安裝

小提示:如果使用wheel安裝whl文件,必須先安裝wheel,直接pip install wheel;如果需要升級(jí)pip,直接python -m pip install -- upgrade pip