Tesseract-OCR 4.00簡介

首先我們在GitHub上找到了一些文檔,在這里記錄點學習內(nèi)容。

文檔來源:https://github.com/tesseract-ocr/docs

1、History

1) Timeline


Tesseract從1984年開始至今,中間1995年至2005年基本處于停滯狀態(tài)(The dark ages),自從2005年HP開源,2006年被Google接手之后,又進入了新的發(fā)展階段,也不知道這么有意思的OCR庫經(jīng)過了怎樣的40年~~

上圖中有幾個比較重要的點:

Internationalized to 100+ languages

Layout analysis?

Table Detection

Equation detection?

Training Tools?

PDF output?

?LSTM

具體實現(xiàn)還需要分塊研究,以后再寫。


Tesseract Coordinate System

左下角(bottom-left)為坐標原點(0,0)

Tesseract-OCR System

圖1 Tesseract System Architecture

上圖中展示了整個Tesseract 識別架構(gòu),包括自適應(yīng)二值化,版面分析(我的理解是把整個頁面中的表格、圖片、文字等分類,提取出文字部分進行識別),文字識別等,其中的LSTM Line Recognizer 具體做了什么工作還有待研究,之后的X-Height Fix ,Fuzzy Space Fix, Word Bigram Fix等應(yīng)該是根據(jù)識別結(jié)果不斷調(diào)整參數(shù),以適應(yīng)不同文檔的情況。

圖2 Tesseract Word Recognizer

上圖2顯示了圖1中 recognizer word pass1 中工作情況。這部分的工作重點是字符分割。

圖3 文件結(jié)構(gòu) -功能結(jié)構(gòu)

圖3 說明了整個Tesseract文件結(jié)構(gòu)以及功能說明。

圖4 重要的數(shù)據(jù)結(jié)構(gòu)
圖5?

誰來告訴我這是什么意思?

圖6 Recognize識別過程中的函數(shù)調(diào)用流程

圖6 很清晰地展示了識別操作的函數(shù)調(diào)用流程,這部分是整個OCR的核心,也是以后研究工作的重點。

圖7 實例(一)
圖7 實例(二)
圖7 實例(三)

以上內(nèi)容介紹整體Tesseract架構(gòu)和實例,官方文檔圖片較多,先保存下來,以后學習深入了再來補充整理。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容