源碼下載地址:https://github.com/tesseract-ocr/tesseract
tesseract-ocr 4.0之前的版本編譯請參考朋友的文章?http://www.itdecent.cn/p/0a3386227981
根據(jù)說明4.0版本源碼編譯需要使用以下版本編譯器:

不得已只能安裝VS2015了~~
安裝CPPAN(https://cppan.org/),什么是CPPAN呢?C++ Archive Network,C++包管理器。
下載cppan.exe到tesseract-master文件夾下
cd tesseract-master
cppan
cmake-gui
選擇VS2015編譯,執(zhí)行configure。
這個過程可能有點長,執(zhí)行完成后generate工程。
在編譯過程中可能存在問題,主要是文件編碼方式,可以使用文件? --》高級保存選項 選擇編碼 Unicode(UTF-8 帶簽名)-代碼頁65001,基本完成編譯工作,可以找一些圖片測試一下。
使用方法:
tesseract.exe xxx.jpg yyy -l chi_sim
運行結(jié)果是將名為xxx.jpg 使用中文簡體字庫將識別結(jié)果保存到y(tǒng)yy.txt中。經(jīng)過簡單的測試,識別效果較之前的版本有所提升。
相對于之前的版本,最新版本引入了CPPAN工具,這個具體如何完成包管理工作還有待研究,是否與python中的python install **?或者linux中的apt-get呢?這個工具還有其他什么有意思的功能嗎?抽空再研究研究。
第一次寫,簡單了點,隨便看看嘍。