無論是行政法規(guī)、學(xué)術(shù)論文還是企業(yè)合同,PDF文檔為我們提供了一種便捷、穩(wěn)定的信息傳遞方式。然而,從PDF文件中提取文本信息對于數(shù)據(jù)分析、內(nèi)容編輯等后續(xù)處理來說至關(guān)重要。本文將帶您深入了解PDF文本提取的技術(shù)挑戰(zhàn)與解決策略。并向您展示ComPDFKit面對這些挑戰(zhàn),我們提供的解決方案。
PDF文本提取技術(shù)是一種可以從各類PDF文檔中準確抽取文字的技術(shù)手段。無論是書籍、報告、信件,該技術(shù)都能夠通過各種算法或者AI技術(shù),將文本信息有效地分離出來供進一步的處理和分析。但是,文本提取并不是一件容易的事情,因為PDF文檔有著各種不同的類型和特性,需要針對不同的PDF文檔類型采用不同的提取方法。
PDF中的文本特性與類別
PDF(Portable Document Format)是一種廣泛使用的文件格式,它可以保持文檔的原始外觀,不受操作系統(tǒng)、軟件或硬件的影響。PDF文件可以包含各種組件,例如圖像、文本、鏈接、表格等,這些組件可以提供豐富的信息和功能。
從本質(zhì)上講,PDF并不將文本表示為線條或單詞,而是表示為在頁面上的特定位置繪制的單個字符。最終效果是創(chuàng)建人眼易于理解的單詞、線條和段落。從編程上講,這些構(gòu)造不太明顯:您需要從原始繪圖命令中推斷它們。因此,PDF文本提取的關(guān)鍵在于如何從這些繪圖命令中恢復(fù)出文本的內(nèi)容和結(jié)構(gòu),以及如何處理不同類型的 PDF文件。
PDF類別 & 文字提取存在的問題
首先,所有的PDF文件,都需要解決的問題包括:文字的閱讀順序(從右往左、從左往右、從上到下)、文字分行的困難、多語言的識別等等問題。然后針對不同類型的PDF文件需要針對性處理的問題如下所示。這些問題在ComPDFKit文字提取技術(shù)中都得以解決。下一個部分會專門介紹ComPDFKit提供的文字提取解決方案。
- 以編程方式生成的 PDF:這些 PDF 是使用 HTML、CSS 和 Javascript 等 W3C 技術(shù)或 Adobe Acrobat 等其他軟件在計算機上創(chuàng)建的。它們的文字內(nèi)容通常是以內(nèi)容流的形式存儲的。這種類型的文件可以包含各種組件,例如圖像、文本和鏈接,這些組件都是可搜索且易于編輯的。提取這類文件的文字,存在以下問題:
從內(nèi)容流中提取文本:因為內(nèi)容流僅指示渲染引擎在屏幕上繪制什么,并且因為空白是空白,所以大多數(shù)時候我們必須自己推斷空格和換行符。隱藏文字、多余空格或缺失空格、連字等都導(dǎo)致文字提取的難度加大。
不支持/不可讀的字符:有些 PDF 文檔中的文字內(nèi)容可能使用了一些不常見或不標(biāo)準的字體或編碼,這可能會導(dǎo)致文本提取的工具無法正確地識別或顯示這些字符。例如,有些 PDF 文檔中的文字內(nèi)容可能出現(xiàn)如下所示的不可讀的字符:“ fo? P? a€“”。
- 非電子介質(zhì)創(chuàng)建的掃描檔(比如圖片類):這些文件只不過是存儲在 PDF 文件中的圖像集合。也就是說,無法選擇或搜索這些圖像中出現(xiàn)的元素,例如文本或鏈接。本質(zhì)上,PDF 充當(dāng)這些圖像的容器。這種類型的文件需要使用光學(xué)字符識別 (OCR) 技術(shù)來識別圖像中的文本,并將其轉(zhuǎn)換為可搜索和可編輯的文本。但是,OCR 技術(shù)也會受到圖像質(zhì)量的影響,例如:
圖像陰影、噪點干擾等:如果掃描的文檔或設(shè)備的質(zhì)量不佳,或者掃描的環(huán)境光線不足,就可能導(dǎo)致圖像中出現(xiàn)一些陰影、噪點等干擾,這可能會影響 OCR 的識別率和質(zhì)量。
圖像傾斜:如果掃描的文檔或設(shè)備的位置不正,或者掃描的過程中發(fā)生了移動,就可能導(dǎo)致圖像中的文字內(nèi)容出現(xiàn)一些傾斜,這可能會影響 OCR 的識別率和質(zhì)量。
- 使用 OCR 掃描后的文檔:在這種情況下,掃描文檔后采用 OCR 軟件來識別文件中每個圖像中的文本,將其轉(zhuǎn)換為可搜索和可編輯的文本。實際上這類型文件已經(jīng)經(jīng)過OCR識別了,但是OCR識別多少都會會存在一定的精度問題。那么在此基礎(chǔ)上提取的文字信息或許一開始就存在一定的偏差,比如:
- 文本層和圖像層不匹配、文本層缺失或錯誤、文本層中的文本順序不正確等,這些都會影響文本提取的質(zhì)量和效果。
ComPDFKit 解決方案
針對文字提取技術(shù),ComPDFKit可提供以下兩種解決方案,有效解決所有PDF文件類型的文字提取。對于一些只有文字信息的PDF文檔,可以選擇我們的非智能解決方案即可實現(xiàn)。但是對于復(fù)雜的文檔和圖片類的文檔,ComPDFKit Document AI提供的文字提取能為您帶來更高的提取準確率。
-
算法:X-Y 遞歸投影分割法
X-Y遞歸投影分割法是一種傳統(tǒng)的文字提取方案,它不支持圖片類的PDF文檔,只能處理文字類的 PDF文檔。它通過投影分割法對PDF文檔進行版面分割,獲取到PDF文件中的文字信息。X-Y遞歸投影分割法是通過水平和垂直地在二維圖像(二值圖)在Y軸和X軸上進行投影,將頁面分割成一系列相對獨立的矩形區(qū)域。通過這種方法,ComPDFKit可以對PDF進行分行分段分欄,獲取到PDF文件內(nèi)的字符/詞/行/段等信息。
X-Y遞歸投影分割法的優(yōu)點是速度快,適用于一些格式簡單、結(jié)構(gòu)清晰的非圖片類的PDF文檔。對于一些格式復(fù)雜、結(jié)構(gòu)混亂的PDF文檔,可能會出現(xiàn)識別錯誤或缺失的情況。
-
ComPDFKit Document AI
Document AI是一種智能的文字提取方案,它支持所有類型的PDF文件,包括圖片類的PDF文檔。它通過使用一些基于人工智能的方法來對PDF文檔進行識別和分析,獲取到PDF文件中的文字信息(也可獲取圖像、表格等)。
PDF識別與分析(Documents Recognition and Layout Analysis):這是一個利用深度學(xué)習(xí)模型來對PDF文檔進行識別和分析的過程,它可以從PDF文檔中提取出文字、圖像、表格等元素,并且保留它們的位置、大小、樣式等屬性。ComPDFKit擁有經(jīng)過良好訓(xùn)練的人工智能模型來實現(xiàn)這一過程。
圖像預(yù)處理(Image Pre-processing):這是一個對PDF文檔中的低質(zhì)量圖像進行一些處理的過程,它可以提高圖像的質(zhì)量和清晰度,從而提高后續(xù)的識別和分析的效果。ComPDFKit使用了一些常用的圖像處理技術(shù),如圖像銳化增強、降噪、文檔切邊矯正、印章檢測等,來實現(xiàn)這一過程。
OCR(Optical Character Recognition):OCR技術(shù)有著豐富的應(yīng)用場景,一類典型的場景是日常生活中廣泛應(yīng)用的面向垂類的結(jié)構(gòu)化文本識別,比如 車牌識別、銀行卡信息識別、身份證信息識別、火車票信息識別等等。ComPDFKit支持識別幾十種語言。通過經(jīng)大量訓(xùn)練的模型庫,精準地檢測識別文件文本、分析文檔結(jié)構(gòu)。
數(shù)據(jù)導(dǎo)出
數(shù)據(jù)導(dǎo)出是指將ComPDFKit提取到的文字信息以各種文件格式進行導(dǎo)出的功能,它可以幫助您將PDF文檔中的內(nèi)容轉(zhuǎn)換為其他的文檔類型,以便于您進行后續(xù)的編輯、分析、展示等操作。ComPDFKit支持以下幾種數(shù)據(jù)格式類型以及對應(yīng)文件格式的用途:
JSON(JavaScript Object Notation):這是一種輕量級的數(shù)據(jù)交換格式,它可以將文字信息以鍵值對的形式進行組織和存儲,可以進行修改或分析、可以用簡潔的文本表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu)、便于與各種編程語言交互。
CSV(Comma-Separated Values):這是一種常用的表格數(shù)據(jù)格式,它可以將文字信息以逗號分隔的值的形式進行組織和存儲,方便于數(shù)據(jù)的查看和計算。
RTF(Rich Text Format):這是一種富文本格式,它可以將文字信息以帶有格式的文本的形式進行組織和存儲,方便于數(shù)據(jù)的呈現(xiàn)和編輯。
HTML(HyperText Markup Language):這是一種超文本標(biāo)記語言,它可以將文字信息以帶有標(biāo)簽的文本的形式進行組織和存儲,方便于數(shù)據(jù)的展示和交互。
Word:這是一種常用的文檔處理軟件,它可以將文字信息以文檔的形式進行組織和存儲,方便于數(shù)據(jù)的編輯和排版。
Excel:這是一種常用的電子表格類型的文件,它可以將文字信息以表格的形式進行組織和存儲,方便于數(shù)據(jù)的計算和分析。
PPT(PowerPoint):這是一種常用的演示文稿軟件,它可以將文字信息以幻燈片的形式進行組織和存儲,方便于數(shù)據(jù)的展示和交流。
總結(jié)
歡迎隨時訪問我們的在線試用工具,享受使用ComPDFKit文字提取功能帶來的便捷和高效。