pdfdocx:Python中doc、pdf文檔讀取庫

最近運行課件代碼,發(fā)現(xiàn)pdf文件讀取部分的函數(shù)失效。這里找到讀取pdf文件的可運行代碼,為了方便后續(xù)學(xué)習(xí)使用,我已將pdf和docx讀取方法封裝成pdfdocx包。

pdfdocx

只有簡單的兩個讀取函數(shù)

  • read_pdf(file)
  • read_docx(file)

file為文件路徑,函數(shù)運行后返回file文件內(nèi)的文本數(shù)據(jù)。

安裝

pip install pdfdocx

使用

讀取pdf文件

from pdfdocx import read_pdf
p_text = read_pdf('test/data.pdf')
print(p_text)

Run

這是來?pdf?件內(nèi)的內(nèi)容
from pdfdocx import read_docx
d_text = read_pdf('test/data.docx')
print(d_text)

Run

這是來?docx?件內(nèi)的內(nèi)容

拆開pdfdocx

希望大家能安裝好,如果安裝或者使用失敗,可以使用下面的代碼作為備選方法。雖然繁瑣,能用就好。

讀取pdf

from io import StringIO
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
import re


def read_pdf(file):
    """
    讀取pdf文件,并返回其中的文本內(nèi)容
    :param file: pdf文件路徑
    :return: docx中的文本內(nèi)容
    """
    output_string = StringIO()
    with open(file, 'rb') as in_file:
        parser = PDFParser(in_file)
        doc = PDFDocument(parser)
        rsrcmgr = PDFResourceManager()
        device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.create_pages(doc):
            interpreter.process_page(page)
    text = output_string.getvalue()
    return re.sub('[\n\t\s]', '', text)
  

讀取docx

import docx
  
def read_docx(file):
    """
    讀取docx文件,并返回其中的文本內(nèi)容
    :param file: docx文件路徑
    :return: docx中的文本內(nèi)容
    """
    text = ''
    doc = docx.Document(file)
    for para in doc.paragraphs:
        text += para.text
    return text

如果

如果您是經(jīng)管人文社科專業(yè)背景,編程小白,面臨海量文本數(shù)據(jù)采集和處理分析艱巨任務(wù),個人建議學(xué)習(xí)《python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析》視頻課。作為文科生,一樣也是從兩眼一抹黑開始,這門課程是用五年時間凝縮出來的。自認為講的很通俗易懂o( ̄︶ ̄)o,

  • python入門
  • 網(wǎng)絡(luò)爬蟲
  • 數(shù)據(jù)讀取
  • 文本分析入門
  • 機器學(xué)習(xí)與文本分析
  • 文本分析在經(jīng)管研究中的應(yīng)用

感興趣的童鞋不妨 戳一下《python網(wǎng)絡(luò)爬蟲與文本數(shù)據(jù)分析》進來看看~

更多

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第一部分 創(chuàng)建爬蟲 重點介紹網(wǎng)絡(luò)數(shù)據(jù)采集的基本原理 : 如何用 Python 從網(wǎng)絡(luò)服務(wù)器 請求信息,如何對服務(wù)器...
    萬事皆成閱讀 2,294評論 0 5
  • 引言 眾所周知,python最強大的地方在于,python社區(qū)匯總擁有豐富的第三方庫,開源的特性,使得有越來越多的...
    北房有佳人閱讀 1,767評論 2 2
  • 鍍金的同時卻忘了銀針渡人,術(shù)法渡鬼。 鍍金是一種完美的理想主義,渡鬼是一種現(xiàn)實的骨干主義,蒼涼浮華。 鍍金渡水渡人...
    媚珠春華閱讀 1,159評論 0 0
  • 青林翠竹催寒意,秀桿直立聳入云。 葉葉交織逐風(fēng)浪,微風(fēng)搖枝入小冬。 棵棵相擁爭高望,層巒疊嶂鋪滿天。 臨松相伴獨缺...
    默契_0fcb閱讀 244評論 0 1
  • 今天下午媽媽送我去上學(xué),到了學(xué)校媽媽把我送到班上,我走進教室找到自己的位置坐下,我又在班里等了一會,楊柯就來了。楊...
    豪達兄弟閱讀 179評論 0 0

友情鏈接更多精彩內(nèi)容