特殊字符語(yǔ)言包訓(xùn)練流程(新)

題庫(kù)特殊字符語(yǔ)言包訓(xùn)練流程(新)

上篇文章介紹了一些特殊字符語(yǔ)言包的訓(xùn)練流程,然而沒(méi)過(guò)幾天,github上的tesseract源碼有了較大的改動(dòng),包括wiki里面的教程文檔也有了相應(yīng)的變更。于是今天介紹一下適應(yīng)于新代碼的訓(xùn)練流程。

準(zhǔn)備訓(xùn)練依賴項(xiàng)

依次在終端輸入以下命令:

  1. git clone https://github.com/tesseract-ocr/tesseract.git
  2. git clone https://github.com/tesseract-ocr/langdata.git
  3. git clone https://github.com/tesseract-ocr/tessdata.git
  4. cp ./tessdata/best/eng.traineddata ./tesseract/tessdata
  5. cp ./tessdata/best/chi_sim.traineddata ./tesseract/tessdata
  6. cp ./tessdata/best/chi_sim_vert.traineddata ./tesseract/tessdata

下載tesseract包后需要本地安裝,可看前面發(fā)布的安裝教程:Tess4.0 windows編譯與使用,tesseract linux 安裝與編譯

添加新字符

到./langdata/chi_sim/chi_sim.training_text文件中添加新的字符,例如:'≤'。本例添加50個(gè)≤到chi_sim.training_text文件中。

生成新的訓(xùn)練數(shù)據(jù)

training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainspecial

training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--tessdata_dir ./tessdata \
--fontlist "SIMSUN" --output_dir ~/tesstutorial/evalspecial

scratch訓(xùn)練

export SCROLLVIEW_PATH=$PWD/java

mkdir -p ~/tesstutorial/specialoutput

training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,0,0,1 Ct5,5,16 Mp3,3 Lfys64 Lfx128 Lrx128 Lfx384 O1c5000]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--max_iterations 3600 &>~/tesstutorial/specialoutput/basetrain.log

finetune訓(xùn)練

training/combine_tessdata -e tessdata/best/chi_sim.traineddata \
  ~/tesstutorial/trainspecial/chi_sim.lstm

training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
  --continue_from ~/tesstutorial/trainspecial/chi_sim.lstm \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --old_traineddata tessdata/best/chi_sim.traineddata \
  --train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
  --max_iterations 3600

合并訓(xùn)練結(jié)果

finetune訓(xùn)練合并

training/lstmtraining --stop_training \
  --continue_from ~/tesstutorial/trainspecial/special_checkpoint \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --model_output ~/tesstutorial/trainspecial/chi_sim_special.traineddata

新生成的chi_sim_special.traineddata在~/tesstutorial/trainspecial目錄下。

scratch訓(xùn)練合并

training/lstmtraining --stop_training \
--continue_from ~/tesstutorial/trainspecial/special_checkpoint \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--model_output ~/tesstutorial/specialoutput/chi_sim_special.traineddata

繼續(xù)訓(xùn)練

如果合并后測(cè)試的結(jié)果不夠理想,可以利用以下命令繼續(xù)訓(xùn)練

fine tuning繼續(xù)訓(xùn)練

training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
  --continue_from ~/tesstutorial/trainspecial/special_checkpoint \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --old_traineddata tessdata/best/chi_sim.traineddata \
  --train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
  --max_iterations 10000

scratch 繼續(xù)訓(xùn)練

export SCROLLVIEW_PATH=$PWD/java

training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--continue_from ~/tesstutorial/specialoutput/base_checkpoint \
--max_iterations 10000 &>~/tesstutorial/specialoutput/basetrain.log

注意:這里的max_iterations的取值要大于第一次的訓(xùn)練值。例如,本次的max_iterations 10000大于3600。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容