UiPath使用ABBYY Flexicapture OCR

[TOC]

1. ABBYY Flexicapture簡(jiǎn)介

ABBYY FlexiCapture(簡(jiǎn)稱AbbyyFC)使開(kāi)發(fā)人員可以快速開(kāi)發(fā)解決方案,用于從固定格式或半結(jié)構(gòu)化格式的表單、文檔中提取數(shù)據(jù)。有如下特點(diǎn):

  • 靈活的導(dǎo)出選項(xiàng)

導(dǎo)出時(shí)可以選擇 PDF/A 格式,導(dǎo)出帶標(biāo)記的 PDF,PDF 的快速 web 視圖選項(xiàng),導(dǎo)出為 UTF 時(shí)不寫(xiě)入 BOM(字節(jié)順序標(biāo)記) 字符。減少文檔存儲(chǔ)所需空間,可以管理輸出文件的大小與質(zhì)量,從而最大限度提高數(shù)據(jù)存儲(chǔ)效率。

  • 更好、更快的 OCR

ABBYY FlexiCapture SDK采用最新一代的 ABBYY OCR 技術(shù)。借助引擎背后的新一代核心技術(shù),可以更快、更高質(zhì)量地處理阿拉伯語(yǔ)、中文、日文及韓語(yǔ)文本。

  • 云部署

云環(huán)境越來(lái)越受歡迎,越來(lái)越多的客戶將他們的服務(wù)托管在云上。新的 FlexiCapture SDK可以運(yùn)行在這些虛擬環(huán)境、容器及虛擬機(jī)上。UiPath或其他RPA工具僅通過(guò)訪問(wèn)協(xié)議即可實(shí)現(xiàn)將待處理的文件上傳下載的過(guò)程。

  • 發(fā)票處理是現(xiàn)成的模組

FlexiCapture FlexiCapture具有可擴(kuò)展性,發(fā)票處理是一個(gè)現(xiàn)成提供的附加功能,包括預(yù)定義設(shè)置、驗(yàn)證規(guī)則、先進(jìn)的數(shù)據(jù)庫(kù)查詢和特定UI增強(qiáng)設(shè)定。。

  • 支持不同類型文檔的數(shù)據(jù)采集

通過(guò)自定義識(shí)別的模板,ABBYYFC可以從不同類型的文檔中快速定位所有必需的數(shù)據(jù)字段,并以合適的格式提取出來(lái)。

  • 高性能與快速響應(yīng)

通過(guò)創(chuàng)建并行運(yùn)行在不同進(jìn)程上的處理器池,我們可以改進(jìn)服務(wù)器應(yīng)用程序的性能和響應(yīng)能力??蛻舳苏?qǐng)求由不同的 CPU 核心獨(dú)立處理,無(wú)須在隊(duì)列中等待,服務(wù)器應(yīng)用程序因此響應(yīng)更快。另外,單一長(zhǎng)任務(wù)拆分成多個(gè)小任務(wù)并行處理,能夠合理利用多核 CPU 的運(yùn)行能力,從而提高性能。如下圖,可以對(duì)核心數(shù)進(jìn)行分配。


image
  • 通過(guò)訓(xùn)練來(lái)創(chuàng)建文檔定義

AbbyyFC能夠自動(dòng)學(xué)習(xí)新文檔類型并識(shí)別數(shù)據(jù)提取相關(guān)字段。

2. AbbyyFC與UiPath的集成前準(zhǔn)備

說(shuō)明:此部分比較繁瑣復(fù)雜,每一節(jié)都形成一個(gè)文檔或視頻記錄。通常,如果客戶購(gòu)買了ABBYYFC的license,都會(huì)有專門(mén)的工程師協(xié)助完成此部分內(nèi)容,并且會(huì)根據(jù)客戶及UiPath所處理的文檔結(jié)構(gòu),協(xié)助完成識(shí)別模板的定制。

2.1 ABBYYFC安裝

ABBYY Flexicapture12安裝

2.2 ABBYYFC識(shí)別模板設(shè)置

https://www.bilibili.com/video/av76982066/

2.3 ABBYYFC批量識(shí)別測(cè)試

https://www.bilibili.com/video/av76590982/

3. Demo1:在UiPath中集成ABBYYFC Activities

使用ABBYY FC相關(guān)的Activities與UiPath集成。

缺點(diǎn):

  • 1.使用了外部的Activities,對(duì)ABBYY FC存在依賴。
  • 2.官方Demo中使用到了Orchestrator中的Queue,使其調(diào)試繁瑣。

優(yōu)勢(shì):

  • 1.通過(guò)Activities對(duì)AbbyyFC的相關(guān)參數(shù)進(jìn)行靈活的配置。
  • 2.靈活切換多任務(wù)和單任務(wù)的處理模式

3.1 下載ABBYYFC相關(guān)Activities

FlexiCapture Connector是一系列UiPath中的Activities,可在FlexiCapture企業(yè)平臺(tái)和UiPath之間提供集成,從而自動(dòng)處理非結(jié)構(gòu)化內(nèi)容(文檔,圖像和文本),從而將其轉(zhuǎn)換為結(jié)構(gòu)化的可操作數(shù)據(jù)。

官方下載地址: FlexiCapture Connector for UiPath

百度云地址: 鏈接:https://pan.baidu.com/s/1heC2KWjsqiY38OlO0vcRBw 提取碼:21bs

百度云中下載的壓縮包中同時(shí)包含多任務(wù)處理和單任務(wù)處理的Activities。

3.2 安裝ABBYYFC相關(guān)Activities

打開(kāi)UiPath中Manage Packages窗口,如下圖所示,自定義包源的名稱,在Source中添加Activities所在文件夾,點(diǎn)擊Add.


image

如下圖,分別安裝如下三個(gè)Package并Save,退出。


image

安裝完畢之后,會(huì)有如下幾個(gè)Activities出現(xiàn)

image

3.2 測(cè)試ABBYY FC的單任務(wù)處理

所謂單任務(wù)處理,是指ABBYY在對(duì)PDF或者Image識(shí)別時(shí),會(huì)將一張PDF(Image)作為一個(gè)批處理任務(wù)進(jìn)行處理。而多任務(wù)處理,是指ABBYY可以同時(shí)獲取多張PDF(Image),并且利用CPU的多核心,對(duì)PDF(image)進(jìn)行并發(fā)處理,以提高處理效率。

建立UiPath的Workflow,如下圖所示(文章最后會(huì)貼出代碼地址):


image
image

相關(guān)參數(shù):

image

3. Demo2:在UiPath中直接使用ABBYY FC輸出結(jié)果

通過(guò)將ABBYY FC配置為windows后臺(tái)任務(wù),自動(dòng)處理輸入的待識(shí)別文件,識(shí)別完之后自動(dòng)輸出到指定文件夾。UiPath的工作僅需要將所有待識(shí)別文件移動(dòng)到ABBYYFC指定的讀取文件夾,待識(shí)別結(jié)束之后,UiPath只需要從結(jié)果文件夾中獲取結(jié)果進(jìn)行處理即可。

優(yōu)勢(shì):

  • 1.無(wú)需對(duì)UiPath做任何配置或安裝Activities。
  • 2.開(kāi)發(fā)只需要關(guān)注輸入輸出即可。

缺點(diǎn):

  • 1.不能靈活的對(duì)ABBYY輸入輸出及其他參數(shù)進(jìn)行設(shè)置
  • 2.若存在需要人工校驗(yàn)的文件,則需要等到所有文件都識(shí)別完成之后,才可以進(jìn)行校驗(yàn)(等待時(shí)間可能比較長(zhǎng))。

3.1 ABBYY FC配置輸入輸出文件夾

設(shè)置ABBYY FC自動(dòng)讀取的文件夾、讀取時(shí)間間隔、批處理文件數(shù)量(每次指定個(gè)數(shù)、文件夾所有文件、子文件夾文件、單個(gè)文件)、批處理模式、處理完成之后文件的處理方式(刪除、移動(dòng)至其他文件夾)以及處理失敗的文件該如何處理(留在源文件夾或移動(dòng)至指定目錄)

3.1.1 配置共享文件夾

如下圖,將ABBYY文件夾共享出來(lái),后續(xù)將會(huì)使用到網(wǎng)絡(luò)路徑 \Cnpxxxx591\abbyy

image

3.1.2 配置ABBYY FC定時(shí)讀取文件夾

如下圖所示,安裝步驟進(jìn)行設(shè)置


image
image
image

設(shè)置已處理圖片存放目錄和處理失敗圖片存放的目錄,若不存在,則自行創(chuàng)建即可。


image
3.1.3 配置ABBYY FC文件輸出目錄

設(shè)置導(dǎo)出規(guī)則


image
image
image

其他信息可以單擊對(duì)應(yīng)的button查看詳細(xì)的設(shè)置規(guī)則。之后點(diǎn)擊OK,保存項(xiàng)目并publish即可。

之后按照如下圖進(jìn)行最后一步設(shè)置,即可完成ABBYY FC的自動(dòng)輸入輸出文件夾的設(shè)置,讓ABBYY FC作為后臺(tái)任務(wù)幫助機(jī)器人完成OCR識(shí)別或其他任務(wù)。


image

3.2 UiPath與ABBYY FC的結(jié)合使用

如下為UiPath代碼,通過(guò)將待識(shí)別文件主動(dòng)放入ABBYY FC掃描目錄,之后再?gòu)妮敵瞿夸浿蝎@取到想要格式的文件。

用到的依賴:

PDF_Activities=1.0.1 (用于計(jì)算PDF張數(shù))
image

4. 代碼獲取

從Github上獲?。?br> sombie007/RPA/AbbyyFC

若有幫助,請(qǐng)點(diǎn)個(gè)Star。


image

附2 . 關(guān)于RPA知識(shí)星球

之前有很多文章和心得發(fā)布在"小專欄"中,但是最近由于各種原因,后續(xù)不準(zhǔn)備再發(fā)一些文章上去,全部遷移至知識(shí)星球。知識(shí)星球中內(nèi)容全部由我運(yùn)營(yíng),會(huì)定期輸出與RPA相關(guān)內(nèi)容,包括但不限于:

  • RPA實(shí)施方法論
  • RPA實(shí)施技術(shù)架構(gòu)
  • RPA應(yīng)用場(chǎng)景分析理解
  • RPA實(shí)施中填坑之路......

為什么要收費(fèi):

  • 建立門(mén)檻,過(guò)濾掉觀光客;
  • 逼自己盡可能多地思考和輸出內(nèi)容;
  • 通過(guò)輸出內(nèi)容,和一幫志趣相投的朋友們一起,激發(fā)出更多好玩的機(jī)會(huì);
  • 利用知識(shí)星球連接鐵桿粉絲,做出高品質(zhì)社群
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容