首先我們在GitHub上找到了一些文檔,在這里記錄點學習內(nèi)容。
文檔來源:https://github.com/tesseract-ocr/docs
1、History
1) Timeline

Tesseract從1984年開始至今,中間1995年至2005年基本處于停滯狀態(tài)(The dark ages),自從2005年HP開源,2006年被Google接手之后,又進入了新的發(fā)展階段,也不知道這么有意思的OCR庫經(jīng)過了怎樣的40年~~
上圖中有幾個比較重要的點:
Internationalized to 100+ languages
Layout analysis?
Table Detection
Equation detection?
Training Tools?
PDF output?
?LSTM
具體實現(xiàn)還需要分塊研究,以后再寫。
Tesseract Coordinate System
左下角(bottom-left)為坐標原點(0,0)
Tesseract-OCR System

上圖中展示了整個Tesseract 識別架構(gòu),包括自適應(yīng)二值化,版面分析(我的理解是把整個頁面中的表格、圖片、文字等分類,提取出文字部分進行識別),文字識別等,其中的LSTM Line Recognizer 具體做了什么工作還有待研究,之后的X-Height Fix ,Fuzzy Space Fix, Word Bigram Fix等應(yīng)該是根據(jù)識別結(jié)果不斷調(diào)整參數(shù),以適應(yīng)不同文檔的情況。

上圖2顯示了圖1中 recognizer word pass1 中工作情況。這部分的工作重點是字符分割。

圖3 說明了整個Tesseract文件結(jié)構(gòu)以及功能說明。


誰來告訴我這是什么意思?

圖6 很清晰地展示了識別操作的函數(shù)調(diào)用流程,這部分是整個OCR的核心,也是以后研究工作的重點。



以上內(nèi)容介紹整體Tesseract架構(gòu)和實例,官方文檔圖片較多,先保存下來,以后學習深入了再來補充整理。