如何將 PDF 表格數(shù)據(jù)免費轉換到 Excel ?

所見即所獲,提升你的數(shù)據(jù)采集效率。

需求

寫了那篇《如何用Python批量提取PDF文本內(nèi)容?》后,我在后臺收到了許多留言。

不少讀者詢問,如果是 PDF 文件中的表格呢?能否正確轉換?

我當時沒有理解這種需求。因為那篇文章談的主要是把文本抽取出來,目的主要是進行下一步的自然語言處理。這種 Pdf 文件中大量的內(nèi)容,都是文字。表格在其中,只占非常小的比例。

如何用Python批量提取PDF文本內(nèi)容?》一文提供的工具pdf_extractor 會保留表格里面的數(shù)據(jù),但是結構信息基本就被丟棄掉了。

表格轉換,屬于結構化數(shù)據(jù)提取。這和我當時文章所談的主旨不同。所以我沒有一一回復。

然而,最近我自己也遇到了這種需求。

我需要從一些論文的表格中,抽取一些數(shù)據(jù)。尤其是一些對比結果的列表。

在機器學習的論文中,總會有這種對比表格。主要是把目前模型的結果,與基準線或者當前最好的結果進行比對,從而說明論文的價值和意義。我在《文科生用機器學習做論文,該寫些什么?》一文里,專門給你談過這種對比的選擇。

例如這樣的:

如果在跟蹤自然語言處理進展的話,你一眼就能認出,這個表格來自于哪篇論文,對吧?

對,就是大名鼎鼎 BERT 語言模型。

一方面,我們可能需要對論文表格中出現(xiàn)的一些數(shù)據(jù)進行統(tǒng)計計算。令一方面,我們也需要把部分結果,放在自己的論文里作為對比。而這些,如果都需要我們手動提取數(shù)據(jù),然后再輸入到程序中或者 Excel 里,會很低效

我們需要一種簡便的方法,幫助自己把 PDF 表格里面的信息,在盡可能保持格式的情況下,正確提取出來。

搜尋

既然有了需求,我就開始搜集信息。我發(fā)現(xiàn),目前支持從 PDF 中抽取表格的應用,其實還真不少。

但是轉換的效果,真的是參差不齊。使用的難易程度,也高低不一。有的需要你自己編寫腳本,才能完成操作。

其中轉換效果較好,使用又方便的,大多是收費的。而且其中有些還著實并不便宜。

幾經(jīng)搜尋對比,我終于找到了一款免費且簡便好用的工具。而且經(jīng)過實際嘗試,發(fā)現(xiàn)轉換效果還不錯。

這里,我把它推薦給你。希望能幫你在閱讀和寫作過程中,提升 PDF 表格數(shù)據(jù)采集的效率。

安裝

它的名字叫做 Tabula ,網(wǎng)站鏈接在這里

網(wǎng)站提供了 Windows 和 macOS 版本的下載鏈接,還有對應的源代碼。

我的操作系統(tǒng)是 macOS ,因此這里以 macOS 版本為例。你如果使用 Windows 系統(tǒng),操作是大同小異的。

請點擊對應的鏈接下載安裝。

macOS 系統(tǒng)下載安裝文件壓縮包,解壓之后,會出現(xiàn)這樣一個目錄。

雙擊執(zhí)行其中的 Tabula.app ,你就可以看見瀏覽器中出現(xiàn)這樣的 Web 界面。

下面我們轉換一個 PDF 文件試試看。

嘗試

這里,我用 BERT 論文中的表格采集為例,給你講講 Tabula 的使用方法。

點擊上圖中的 Browse 按鈕,選擇硬盤上的 PDF 文件。

然后點擊 Import 按鈕導入。

導入后的 PDF 文章內(nèi)容會分頁顯示出來。

你只需要翻到對應的頁面,用鼠標勾選表格區(qū)域。

然后點擊右上方綠色的 “Preview and Export Extracted Data” 按鈕,就可以看到抽取結果了。

然后,點擊 Export 按鈕,就可以把結果用 CSV 格式導出,并且可以在 Excel 中打開了。

調(diào)整

但是,有些復雜表格的提取中,原本不同的列,可能會被錯誤地放在一起。

例如選擇這個表格的時候。

導出的結果就成了這個樣子:

這怎么辦呢?

其實,處理起來并不算困難。

我們先導出自動轉換結果為 CSV ,然后用 Excel 打開。

這里以第一列為例。顯然,這里三列數(shù)據(jù)被擠在了一起。

好在因為這些數(shù)據(jù)都是用空格分割,因此拆分并不困難。

我們新建兩個空列,好容納新拆出來的數(shù)據(jù)。

然后選中第一列中需要拆分的數(shù)據(jù)。

進入 Data 選單,選擇 Text to Columns (文本到列)按鈕。

第一屏直接繼續(xù)。

第二屏選擇 Space (空格) 作為切分符號。

點擊 Finish ,就可以了。

看,是不是已經(jīng)拆分成功了?

小結

這篇教程讀過后,希望你掌握了以下技能:

  • 你遇到的功能需求,可能別人早就解決了。因此可以找尋工具來解決,而不必自己重復發(fā)明輪子;
  • 對于工具的搜尋,需要掌握主動搜索的技巧。這樣才能迅速定位候選項。這里給你推薦一篇搜索引擎使用技巧的教程,鏈接在這里;
  • 學會利用 Tabula 從 PDF 格式的文檔中自動轉換表格為 Excel 可讀的 CSV 格式;
  • 對于未能正確分列的轉換結果,可以使用 Excel 快速進行調(diào)整。

祝學習進步!

延伸閱讀

你可能也會對以下話題感興趣。點擊鏈接就可以查看。

喜歡請點贊和打賞。還可以微信關注和置頂我的公眾號“玉樹芝蘭”(nkwangshuyi)。

如果你對 Python 與數(shù)據(jù)科學感興趣,不妨閱讀我的系列教程索引貼《如何高效入門數(shù)據(jù)科學?》,里面還有更多的有趣問題及解法。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 原文鏈接 《Python數(shù)據(jù)分析》(Python for Data Analysis, 2nd Edition)第...
    李紹俊閱讀 8,747評論 0 5
  • 錯過那刻 陌生人,祝你一路上的歡心 若時鐘撥轉 我仍會走同樣的路
    軌跡的星空閱讀 331評論 3 4
  • 去年的今天,高考結束,本來打算向我喜歡了三年的女孩表白,但后來我卻懦弱了,一年的時間,我終于明白了,喜歡就要...
    秋河飲閱讀 303評論 0 1
  • 晚飯后,我瞇著倦眼蔫蔫地躺在沙發(fā)上。 小丫頭樂滋滋地蹦過來說“媽咪,你很累啊,我給你按摩按摩舒服舒服吧”說完小手利...
    青衫素履閱讀 188評論 0 0
  • ——1—— 我很煩,每次拿出手機來按亮屏幕,卻不知道自己下一步要干什么…… 明明想看看快遞到了哪里,卻不自覺地翻到...
    木魚加木魚閱讀 358評論 0 3

友情鏈接更多精彩內(nèi)容