Tesseract OCR LSTM文本訓練

官方鏈接:

官方訓練教程https://github.com/tesseract-ocr/tessdoc/blob/master/TrainingTesseract-4.00.md
語言包地址https://github.com/tesseract-ocr/tessdata_best

4.0 LSTM的訓練流程和3.0版本有點像,如下:

  1. 準備培訓文字(txt)。
  2. 將文本轉換為 圖像和box文件。
  3. 制作unicharset文件。
  4. 根據(jù)unicharset和可選的詞典數(shù)據(jù)制作入門級訓練數(shù)據(jù)。
  5. 運行tesseract以處理圖像和 box文件以創(chuàng)建訓練數(shù)據(jù)集。
  6. 對訓練數(shù)據(jù)集進行訓練。
  7. 合并數(shù)據(jù)文件。

其區(qū)別在于:
1、 3.0版本訓練圖像文字,需要知道每個要訓練的字在其圖像中的具體坐標,而4.0版本訓練僅需要知道這個字所在行的坐標即可(即不需要逐個字去調(diào)試坐標)。
2、3.0版本訓練過程中的 .tr文件在4.0版本的訓練過程中被替換為.lstmf數(shù)據(jù)文件。(其他訓練教程里面如果出現(xiàn)了.tr文件,那就可以肯定他的教程是3.0版本)
3、 字體可以并且應該自由混合而不是分開。(這段話我看不懂)
4、 3.0版本的聚類步驟(mftraining,cntraining,shapeclustering)在4.0中被替換為一個緩慢的lstmtraining步驟。(即3.0的多個合并步驟在4.0這里只需要一個步驟完成)
5、 4.0的訓練需要一氣呵成,如果訓練中斷,重啟后很難自動結束。
6、 4.0使用的語言模型、unicharset和3.0版本所使用的語言模型和unicharset不一樣(所以不要拿3.0的數(shù)據(jù)來4.0里面訓練)。

訓練前準備

寫了半天:發(fā)現(xiàn)知乎已經(jīng)有篇現(xiàn)成的了,大家可以參考
https://zhuanlan.zhihu.com/p/58366201?from_voters_page=true

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容