Python小工具之讀取文件夾下pdf文件及獲取pdf頁數(shù)

#coding:utf-8
import os  
import pandas as pd  
from PyPDF2 import PdfReader  
  
# 指定要讀取的文件夾路徑  
folder_path = r'E:/臨時(shí)文件/'
  
# 獲取文件夾下的所有PDF文件  
pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]  
  
# 存儲(chǔ)PDF文件的頁碼信息  
pdf_page_info = []  
  
# 遍歷每個(gè)PDF文件  
# for file_name in pdf_files:  
#使用enumerate()函數(shù)來同時(shí)獲取循環(huán)的次數(shù)和元素值,index來寫編號(hào)
for index,file_name in enumerate(pdf_files): 
    file_path = os.path.join(folder_path, file_name)  
    with open(file_path, 'rb') as file:  
        # 創(chuàng)建PDF閱讀器對(duì)象  
        reader = PdfReader(file)  
        # 獲取PDF文件的頁數(shù)  
        # num_pages = reader.getNumPages()  
        num_pages = len(reader.pages)  
        # 將文件名稱、頁碼數(shù)量和備注添加到列表中  
        # pdf_page_info.append((os.path.splitext(file_name)[0], file_name, num_pages, ''))  
        pdf_page_info.append((index+1, file_name, num_pages, ''))  
  
# 創(chuàng)建Excel文件并輸出數(shù)據(jù)  
df = pd.DataFrame(pdf_page_info, columns=['編號(hào)', '文件名稱', '頁碼數(shù)量', '備注'])  
df.to_excel('output.xlsx', index=False)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容