Tesseract4.0訓(xùn)練中文字體識(shí)別問題總結(jié)
注:目前僅說明windows下的情況
前言
網(wǎng)上已經(jīng)有大量的tesseract的識(shí)別教程,這里不再贅述,本文主要針對(duì)初學(xué)者搭建環(huán)境中所遇到的問題進(jìn)行描述和解答, 有些問題因資料有限,只能羅列無法回答,也期待各位進(jìn)行完善補(bǔ)充:
本文參考以下博主的文章進(jìn)行逐步搭建
https://blog.csdn.net/qq_37674858/article/details/80340914
問題一,在自主訓(xùn)練前需要生成.box文件,需要執(zhí)行tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox命令報(bào)錯(cuò)

解答: 這是由于在安裝tesseract時(shí)沒有中文chi_sim.traineddata文件導(dǎo)致, 可以下載chi_sim.traineddata放置于Tesseract-OCR\tessdata\下,再運(yùn)行tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox

問題二、我在win7系統(tǒng)下運(yùn)行了jTessBoxEditor,由于無法處理中文,我下載了jTessBoxEditorFX使用,發(fā)現(xiàn)jTessBoxEditorFX無法啟動(dòng),沒有報(bào)錯(cuò),直接閃退,于是我換了一個(gè)電腦,可以正常使用
解答:該問題等待解答
問題三、我在第一天使用jTessBoxEditorFX正常打開tif文件,可以看到很多圖片已經(jīng)切割字符,然后我編輯后保存,關(guān)閉軟件,第二天我打開發(fā)現(xiàn)jTessBoxEditorFX打開tif文件或者jpg文件都無法顯示切割字符,沒有一個(gè)切割框
解答:查看生成的box文件,文件大小為0KB,說明文件遭到破壞,得重新生成編譯
問題四、在命令中輸入tesseract chi_my.font.exp0 nobatch box.train出現(xiàn)了問題,報(bào)WARNING!LEAK! object 0349FF58 still has count 1錯(cuò)誤
解答:該問題等待解答
問題五、執(zhí)行命令tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox報(bào)錯(cuò)

解決:該問題是由于訓(xùn)練的文件中,字符中有其他元素導(dǎo)致,盡量保證訓(xùn)練的圖畫面干凈,比如我訓(xùn)練失敗的圖如下

當(dāng)我去掉該圖后,再執(zhí)行命令tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox,效果如下,


開始運(yùn)行實(shí)例,GD,又出錯(cuò)了,看下文
問題六、Failed loading language 'chi'
Tesseract couldn't load any languages!
Could not initialize tesseract.
解答,這是由于Tesseract版本問題,經(jīng)常中文包就報(bào)上面的信息,如果你是3.x版本,請(qǐng)升級(jí)到4.0

問題七、Error opening data file src/test/resources/tessdata/chi_my.traineddata

解決:這是由于我們自己訓(xùn)練的語言包沒有放到項(xiàng)目下,那么放好到對(duì)應(yīng)的項(xiàng)目的tessdata目錄下即可,如下圖

開始運(yùn)行,結(jié)果已識(shí)別中文

注意,這里嘗試過官網(wǎng)給的幾個(gè)方法都沒有識(shí)別,這個(gè)處理傾斜的方法執(zhí)行成功,和圖像本身有一定關(guān)系,請(qǐng)多注意
預(yù)祝大家學(xué)習(xí)愉快!