[TOC]
1. ABBYY Flexicapture簡(jiǎn)介
ABBYY FlexiCapture(簡(jiǎn)稱AbbyyFC)使開(kāi)發(fā)人員可以快速開(kāi)發(fā)解決方案,用于從固定格式或半結(jié)構(gòu)化格式的表單、文檔中提取數(shù)據(jù)。有如下特點(diǎn):
- 靈活的導(dǎo)出選項(xiàng)
導(dǎo)出時(shí)可以選擇 PDF/A 格式,導(dǎo)出帶標(biāo)記的 PDF,PDF 的快速 web 視圖選項(xiàng),導(dǎo)出為 UTF 時(shí)不寫(xiě)入 BOM(字節(jié)順序標(biāo)記) 字符。減少文檔存儲(chǔ)所需空間,可以管理輸出文件的大小與質(zhì)量,從而最大限度提高數(shù)據(jù)存儲(chǔ)效率。
- 更好、更快的 OCR
ABBYY FlexiCapture SDK采用最新一代的 ABBYY OCR 技術(shù)。借助引擎背后的新一代核心技術(shù),可以更快、更高質(zhì)量地處理阿拉伯語(yǔ)、中文、日文及韓語(yǔ)文本。
- 云部署
云環(huán)境越來(lái)越受歡迎,越來(lái)越多的客戶將他們的服務(wù)托管在云上。新的 FlexiCapture SDK可以運(yùn)行在這些虛擬環(huán)境、容器及虛擬機(jī)上。UiPath或其他RPA工具僅通過(guò)訪問(wèn)協(xié)議即可實(shí)現(xiàn)將待處理的文件上傳下載的過(guò)程。
- 發(fā)票處理是現(xiàn)成的模組
FlexiCapture FlexiCapture具有可擴(kuò)展性,發(fā)票處理是一個(gè)現(xiàn)成提供的附加功能,包括預(yù)定義設(shè)置、驗(yàn)證規(guī)則、先進(jìn)的數(shù)據(jù)庫(kù)查詢和特定UI增強(qiáng)設(shè)定。。
- 支持不同類型文檔的數(shù)據(jù)采集
通過(guò)自定義識(shí)別的模板,ABBYYFC可以從不同類型的文檔中快速定位所有必需的數(shù)據(jù)字段,并以合適的格式提取出來(lái)。
- 高性能與快速響應(yīng)
通過(guò)創(chuàng)建并行運(yùn)行在不同進(jìn)程上的處理器池,我們可以改進(jìn)服務(wù)器應(yīng)用程序的性能和響應(yīng)能力??蛻舳苏?qǐng)求由不同的 CPU 核心獨(dú)立處理,無(wú)須在隊(duì)列中等待,服務(wù)器應(yīng)用程序因此響應(yīng)更快。另外,單一長(zhǎng)任務(wù)拆分成多個(gè)小任務(wù)并行處理,能夠合理利用多核 CPU 的運(yùn)行能力,從而提高性能。如下圖,可以對(duì)核心數(shù)進(jìn)行分配。
image
- 通過(guò)訓(xùn)練來(lái)創(chuàng)建文檔定義
AbbyyFC能夠自動(dòng)學(xué)習(xí)新文檔類型并識(shí)別數(shù)據(jù)提取相關(guān)字段。
2. AbbyyFC與UiPath的集成前準(zhǔn)備
說(shuō)明:此部分比較繁瑣復(fù)雜,每一節(jié)都形成一個(gè)文檔或視頻記錄。通常,如果客戶購(gòu)買了ABBYYFC的license,都會(huì)有專門(mén)的工程師協(xié)助完成此部分內(nèi)容,并且會(huì)根據(jù)客戶及UiPath所處理的文檔結(jié)構(gòu),協(xié)助完成識(shí)別模板的定制。
2.1 ABBYYFC安裝
2.2 ABBYYFC識(shí)別模板設(shè)置
https://www.bilibili.com/video/av76982066/
2.3 ABBYYFC批量識(shí)別測(cè)試
https://www.bilibili.com/video/av76590982/
3. Demo1:在UiPath中集成ABBYYFC Activities
使用ABBYY FC相關(guān)的Activities與UiPath集成。
缺點(diǎn):
- 1.使用了外部的Activities,對(duì)ABBYY FC存在依賴。
- 2.官方Demo中使用到了Orchestrator中的Queue,使其調(diào)試繁瑣。
優(yōu)勢(shì):
- 1.通過(guò)Activities對(duì)AbbyyFC的相關(guān)參數(shù)進(jìn)行靈活的配置。
- 2.靈活切換多任務(wù)和單任務(wù)的處理模式
3.1 下載ABBYYFC相關(guān)Activities
FlexiCapture Connector是一系列UiPath中的Activities,可在FlexiCapture企業(yè)平臺(tái)和UiPath之間提供集成,從而自動(dòng)處理非結(jié)構(gòu)化內(nèi)容(文檔,圖像和文本),從而將其轉(zhuǎn)換為結(jié)構(gòu)化的可操作數(shù)據(jù)。
官方下載地址: FlexiCapture Connector for UiPath
百度云地址: 鏈接:https://pan.baidu.com/s/1heC2KWjsqiY38OlO0vcRBw 提取碼:21bs
百度云中下載的壓縮包中同時(shí)包含多任務(wù)處理和單任務(wù)處理的Activities。
3.2 安裝ABBYYFC相關(guān)Activities
打開(kāi)UiPath中Manage Packages窗口,如下圖所示,自定義包源的名稱,在Source中添加Activities所在文件夾,點(diǎn)擊Add.

如下圖,分別安裝如下三個(gè)Package并Save,退出。

安裝完畢之后,會(huì)有如下幾個(gè)Activities出現(xiàn)。

3.2 測(cè)試ABBYY FC的單任務(wù)處理
所謂單任務(wù)處理,是指ABBYY在對(duì)PDF或者Image識(shí)別時(shí),會(huì)將一張PDF(Image)作為一個(gè)批處理任務(wù)進(jìn)行處理。而多任務(wù)處理,是指ABBYY可以同時(shí)獲取多張PDF(Image),并且利用CPU的多核心,對(duì)PDF(image)進(jìn)行并發(fā)處理,以提高處理效率。
建立UiPath的Workflow,如下圖所示(文章最后會(huì)貼出代碼地址):


相關(guān)參數(shù):

3. Demo2:在UiPath中直接使用ABBYY FC輸出結(jié)果
通過(guò)將ABBYY FC配置為windows后臺(tái)任務(wù),自動(dòng)處理輸入的待識(shí)別文件,識(shí)別完之后自動(dòng)輸出到指定文件夾。UiPath的工作僅需要將所有待識(shí)別文件移動(dòng)到ABBYYFC指定的讀取文件夾,待識(shí)別結(jié)束之后,UiPath只需要從結(jié)果文件夾中獲取結(jié)果進(jìn)行處理即可。
優(yōu)勢(shì):
- 1.無(wú)需對(duì)UiPath做任何配置或安裝Activities。
- 2.開(kāi)發(fā)只需要關(guān)注輸入輸出即可。
缺點(diǎn):
- 1.不能靈活的對(duì)ABBYY輸入輸出及其他參數(shù)進(jìn)行設(shè)置
- 2.若存在需要人工校驗(yàn)的文件,則需要等到所有文件都識(shí)別完成之后,才可以進(jìn)行校驗(yàn)(等待時(shí)間可能比較長(zhǎng))。
3.1 ABBYY FC配置輸入輸出文件夾
設(shè)置ABBYY FC自動(dòng)讀取的文件夾、讀取時(shí)間間隔、批處理文件數(shù)量(每次指定個(gè)數(shù)、文件夾所有文件、子文件夾文件、單個(gè)文件)、批處理模式、處理完成之后文件的處理方式(刪除、移動(dòng)至其他文件夾)以及處理失敗的文件該如何處理(留在源文件夾或移動(dòng)至指定目錄)
3.1.1 配置共享文件夾
如下圖,將ABBYY文件夾共享出來(lái),后續(xù)將會(huì)使用到網(wǎng)絡(luò)路徑 \Cnpxxxx591\abbyy

3.1.2 配置ABBYY FC定時(shí)讀取文件夾
如下圖所示,安裝步驟進(jìn)行設(shè)置



設(shè)置已處理圖片存放目錄和處理失敗圖片存放的目錄,若不存在,則自行創(chuàng)建即可。

3.1.3 配置ABBYY FC文件輸出目錄
設(shè)置導(dǎo)出規(guī)則



其他信息可以單擊對(duì)應(yīng)的button查看詳細(xì)的設(shè)置規(guī)則。之后點(diǎn)擊OK,保存項(xiàng)目并publish即可。
之后按照如下圖進(jìn)行最后一步設(shè)置,即可完成ABBYY FC的自動(dòng)輸入輸出文件夾的設(shè)置,讓ABBYY FC作為后臺(tái)任務(wù)幫助機(jī)器人完成OCR識(shí)別或其他任務(wù)。

3.2 UiPath與ABBYY FC的結(jié)合使用
如下為UiPath代碼,通過(guò)將待識(shí)別文件主動(dòng)放入ABBYY FC掃描目錄,之后再?gòu)妮敵瞿夸浿蝎@取到想要格式的文件。
用到的依賴:
PDF_Activities=1.0.1 (用于計(jì)算PDF張數(shù))

4. 代碼獲取
從Github上獲?。?br> sombie007/RPA/AbbyyFC
若有幫助,請(qǐng)點(diǎn)個(gè)Star。

附2 . 關(guān)于RPA知識(shí)星球
之前有很多文章和心得發(fā)布在"小專欄"中,但是最近由于各種原因,后續(xù)不準(zhǔn)備再發(fā)一些文章上去,全部遷移至知識(shí)星球。知識(shí)星球中內(nèi)容全部由我運(yùn)營(yíng),會(huì)定期輸出與RPA相關(guān)內(nèi)容,包括但不限于:
- RPA實(shí)施方法論
- RPA實(shí)施技術(shù)架構(gòu)
- RPA應(yīng)用場(chǎng)景分析理解
- RPA實(shí)施中填坑之路......
為什么要收費(fèi):
- 建立門(mén)檻,過(guò)濾掉觀光客;
- 逼自己盡可能多地思考和輸出內(nèi)容;
- 通過(guò)輸出內(nèi)容,和一幫志趣相投的朋友們一起,激發(fā)出更多好玩的機(jī)會(huì);
- 利用知識(shí)星球連接鐵桿粉絲,做出高品質(zhì)社群
