簡單的python腳本批量提取pdf文件首頁

第一步

  • 安裝python,自己windows系統(tǒng)的電腦直接安裝Anaconda3即可

第二步

  • 安裝 PyPDF2 模塊
  • 安裝好Anaconda3后直接在DOS窗口下使用命令easy_install PyPDF2 即可安裝
    42.PNG

第三步

  • 處理pdf文件
  • 將要處理的pdf文件放到同一個文件夾下,將文件夾命名為paper_download,然后將腳本和這個文件夾放到同一個文件夾下在dos窗口下運行即可,輸出文件存放在paper_first_page文件夾下
import os
from PyPDF2 import PdfFileReader, PdfFileWriter

os.mkdir("paper_first_page")
for file in os.listdir("./paper_download"):
    fr = open("./paper_download/" + file,"rb")
    pdfReader = PdfFileReader(fr)
    if pdfReader.isEncrypted:
        pdfReader.decrypt('')
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))
    else:
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))

處理文件時遇到報錯,Multiple definitions in dictionary at byte 0x2db6b for key /MediaBox;按照參考文獻3的方法解決

參考文獻

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容