九九视频高清播放源,亚洲基地av中文无码

Tesseract OCR LSTM文本訓練

官方鏈接：

官方訓練教程：https://github.com/tesseract-ocr/tessdoc/blob/master/TrainingTesseract-4.00.md
語言包地址：https://github.com/tesseract-ocr/tessdata_best

4.0 LSTM的訓練流程和3.0版本有點像，如下：

準備培訓文字（txt）。
將文本轉換為圖像和box文件。
制作unicharset文件。
根據(jù)unicharset和可選的詞典數(shù)據(jù)制作入門級訓練數(shù)據(jù)。
運行tesseract以處理圖像和 box文件以創(chuàng)建訓練數(shù)據(jù)集。
對訓練數(shù)據(jù)集進行訓練。
合并數(shù)據(jù)文件。

其區(qū)別在于：
1、 3.0版本訓練圖像文字，需要知道每個要訓練的字在其圖像中的具體坐標，而4.0版本訓練僅需要知道這個字所在行的坐標即可（即不需要逐個字去調(diào)試坐標）。
2、3.0版本訓練過程中的 .tr文件在4.0版本的訓練過程中被替換為.lstmf數(shù)據(jù)文件。（其他訓練教程里面如果出現(xiàn)了.tr文件，那就可以肯定他的教程是3.0版本）
3、字體可以并且應該自由混合而不是分開。（這段話我看不懂）
4、 3.0版本的聚類步驟（mftraining，cntraining，shapeclustering）在4.0中被替換為一個緩慢的lstmtraining步驟。（即3.0的多個合并步驟在4.0這里只需要一個步驟完成）
5、 4.0的訓練需要一氣呵成，如果訓練中斷，重啟后很難自動結束。
6、 4.0使用的語言模型、unicharset和3.0版本所使用的語言模型和unicharset不一樣（所以不要拿3.0的數(shù)據(jù)來4.0里面訓練）。

訓練前準備

寫了半天：發(fā)現(xiàn)知乎已經(jīng)有篇現(xiàn)成的了，大家可以參考
https://zhuanlan.zhihu.com/p/58366201?from_voters_page=true

最后編輯于：2021.01.27 18:35:02

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Tesseract OCR LSTM文本訓練

Tesseract OCR LSTM文本訓練

官方鏈接：

訓練前準備

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Tesseract OCR LSTM文本訓練

官方鏈接：

訓練前準備

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av