Tesseract-OCR 4.0學(xué)習(xí)(一)

源碼下載地址:https://github.com/tesseract-ocr/tesseract

tesseract-ocr 4.0之前的版本編譯請參考朋友的文章?http://www.itdecent.cn/p/0a3386227981

根據(jù)說明4.0版本源碼編譯需要使用以下版本編譯器:

不得已只能安裝VS2015了~~

安裝CPPAN(https://cppan.org/),什么是CPPAN呢?C++ Archive Network,C++包管理器。

下載cppan.exe到tesseract-master文件夾下

cd tesseract-master

cppan

cmake-gui

選擇VS2015編譯,執(zhí)行configure。

這個過程可能有點長,執(zhí)行完成后generate工程。

在編譯過程中可能存在問題,主要是文件編碼方式,可以使用文件? --》高級保存選項 選擇編碼 Unicode(UTF-8 帶簽名)-代碼頁65001,基本完成編譯工作,可以找一些圖片測試一下。

使用方法:

tesseract.exe xxx.jpg yyy -l chi_sim

運行結(jié)果是將名為xxx.jpg 使用中文簡體字庫將識別結(jié)果保存到y(tǒng)yy.txt中。經(jīng)過簡單的測試,識別效果較之前的版本有所提升。

相對于之前的版本,最新版本引入了CPPAN工具,這個具體如何完成包管理工作還有待研究,是否與python中的python install **?或者linux中的apt-get呢?這個工具還有其他什么有意思的功能嗎?抽空再研究研究。

第一次寫,簡單了點,隨便看看嘍。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    小邁克閱讀 3,129評論 1 3
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,843評論 6 427
  • 有來自空處的風(fēng) 掀起我的裙角 驚起 小小漪漣 風(fēng)兒沁入我的面龐 使我的眼 冰冰涼涼 有來自空處的風(fēng) 穿過我的頭腦 ...
    清魚清魚閱讀 554評論 0 51

友情鏈接更多精彩內(nèi)容