簡單的python腳本批量提取pdf文件首頁

第一步

安裝python，自己windows系統(tǒng)的電腦直接安裝Anaconda3即可

第二步

安裝 PyPDF2 模塊
安裝好Anaconda3后直接在DOS窗口下使用命令easy_install PyPDF2 即可安裝

42.PNG

第三步

處理pdf文件
將要處理的pdf文件放到同一個文件夾下，將文件夾命名為paper_download，然后將腳本和這個文件夾放到同一個文件夾下在dos窗口下運行即可，輸出文件存放在paper_first_page文件夾下

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

os.mkdir("paper_first_page")
for file in os.listdir("./paper_download"):
    fr = open("./paper_download/" + file,"rb")
    pdfReader = PdfFileReader(fr)
    if pdfReader.isEncrypted:
        pdfReader.decrypt('')
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))
    else:
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))

處理文件時遇到報錯，Multiple definitions in dictionary at byte 0x2db6b for key /MediaBox；按照參考文獻3的方法解決

參考文獻

1、Python處理pdf文件庫 - PyPDF2詳解https://www.pythontab.com/html/2017/pythonhexinbiancheng_1128/1190.html
2、"file has not been decrypted" error #51 https://github.com/mstamy2/PyPDF2/issues/51
3、Python解析PDF三法 http://www.cnblogs.com/waltersgarden/p/6626481.html

最后編輯于：2018.10.31 17:35:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

簡單的python腳本批量提取pdf文件首頁

簡單的python腳本批量提取pdf文件首頁

第一步

第二步

第三步

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

簡單的python腳本批量提取pdf文件首頁

第一步

第二步

第三步

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av