第一步
- 安裝python,自己windows系統(tǒng)的電腦直接安裝Anaconda3即可
第二步
- 安裝 PyPDF2 模塊
-
安裝好Anaconda3后直接在DOS窗口下使用命令easy_install PyPDF2 即可安裝42.PNG
第三步
- 處理pdf文件
- 將要處理的pdf文件放到同一個文件夾下,將文件夾命名為paper_download,然后將腳本和這個文件夾放到同一個文件夾下在dos窗口下運行即可,輸出文件存放在paper_first_page文件夾下
import os
from PyPDF2 import PdfFileReader, PdfFileWriter
os.mkdir("paper_first_page")
for file in os.listdir("./paper_download"):
fr = open("./paper_download/" + file,"rb")
pdfReader = PdfFileReader(fr)
if pdfReader.isEncrypted:
pdfReader.decrypt('')
first_page = pdfReader.getPage(0)
pdfWriter = PdfFileWriter()
pdfWriter.addPage(first_page)
pdfWriter.write(open("./paper_first_page/" + file,"wb"))
else:
first_page = pdfReader.getPage(0)
pdfWriter = PdfFileWriter()
pdfWriter.addPage(first_page)
pdfWriter.write(open("./paper_first_page/" + file,"wb"))
處理文件時遇到報錯,Multiple definitions in dictionary at byte 0x2db6b for key /MediaBox;按照參考文獻3的方法解決
參考文獻
- 1、Python處理pdf文件庫 - PyPDF2詳解https://www.pythontab.com/html/2017/pythonhexinbiancheng_1128/1190.html
- 2、"file has not been decrypted" error #51 https://github.com/mstamy2/PyPDF2/issues/51
- 3、Python解析PDF三法 http://www.cnblogs.com/waltersgarden/p/6626481.html