Uipath如何添加Tesseract OCR語言包

有用過Uipath的Tesseract OCR功能的小伙伴都知道,系統(tǒng)默認的語言是英文“en”。對于中文操作環(huán)境來說,如果直接使用,出來的肯定是一堆亂碼。

Tesseract OCR.png

在Tesseract OCR的配置面板中,我們可以看到,其實是有一個配置項是來變更目標(biāo)語言的。而對于各個語言,Tesseract都有一個對應(yīng)的Language code. 例如:英語對應(yīng)“en”,中文簡體對應(yīng)“chi_sim”等等。

如何將language設(shè)置為其他的呢?其實只需要兩步,就可以完成。
1.下載語言包到Uipath本地運行環(huán)境
語言包下載路徑大家可以參考這兩個:https://github.com/tesseract-ocr/tessdata_best ,https://github.com/tesseract-ocr/tessdata,

lan.png

上面以traineddata結(jié)尾的文件,就是語言包,大家根據(jù)自己需要的進行下載。
locate.png

下載完成后,將其放置到uipath本地路徑。(路徑可能有所差異,大家根據(jù)實際情況調(diào)整)。如果在uipath下沒有“tessdata”這個文件夾的話,自己手動新建即可。

2.更改Tesseract OCR面板配置

language如何配置,其實只需要將我們下載下來的包名填充上去即可。例如我下載了chi_sim.traineddata, 那我將“chi_sim”填上去即可。

OK,Tesseract OCR的語言變更就這么多了,其實不難,只是有時候不知道從何下手,希望這個share可以讓大家少采坑。

如果覺得有用,不要忘記點贊哦_!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容