驚呆同事的自動(dòng)化小工具來(lái)了!python批量將pdf轉(zhuǎn)word

無(wú)論在日常工作還是學(xué)習(xí)中,大家都會(huì)遇到一個(gè)問(wèn)題 " 將pdf中的內(nèi)容(文本和圖片)轉(zhuǎn)化為word的格式 " ,也可以說(shuō)從只讀變成可編輯的格式。當(dāng)然網(wǎng)上有很多工具可以實(shí)現(xiàn),但大多都是收費(fèi)的。那我今天的分享,就是通過(guò) python 實(shí)現(xiàn)批量將pdf轉(zhuǎn)換成word,做成一個(gè)桌面小工具。好處是一方面python有免費(fèi)的開(kāi)源庫(kù)可供我們使用;另一方面可以根據(jù)我們需求靈活定制功能;最后工具可以重復(fù)使用,即使你的同事電腦沒(méi)有 pyhton 開(kāi)發(fā)環(huán)境,也可以使用。

一、實(shí)現(xiàn)效果

二、環(huán)境準(zhǔn)備

1、pdf 轉(zhuǎn) word

實(shí)現(xiàn)這個(gè)功能,主要使用的是pdf2docx這個(gè)庫(kù),也是最推薦的。只要是標(biāo)準(zhǔn)PDF文檔,里面的圖片和表格都可以保留格式。要注意的是python版本必須是3.6或以上,本文我使用的是python3.8。安裝命令如下:

pip install pdf2docx
2、繪制圖形用戶界面

Python有許多GUI工具包可供選擇,本文使用 PySimpleGUI ,使用起來(lái)簡(jiǎn)單,對(duì)于我們這個(gè)需求足夠用 。想要深入的伙伴可移步:PySimpleGUI 文檔,有非常多的示例,本文不做過(guò)多拓展。使用之前也需要安裝一下,注意大小寫(xiě)問(wèn)題。

pip install PySimpleGUI 
3、py 程序打包 exe

pyinstaller 是一個(gè)非常簡(jiǎn)單的打包 python 的 py 文件的庫(kù),一條命令即可實(shí)現(xiàn)打包。官方文檔:pyinstaller

pip install pyinstaller

三、代碼實(shí)現(xiàn)

1、pdf 轉(zhuǎn) word 函數(shù)
from pdf2docx import Converter
import PySimpleGUI as sg


def pdf2word(file_path):
    file_name = file_path.split('.')[0]
    doc_file = f'{file_name}.docx'
    p2w = Converter(file_path)
    p2w.convert(doc_file, start=0, end=None)
    p2w.close()
    return doc_file
2、設(shè)計(jì)圖形用戶界面
def main():
    # 選擇主題
    sg.theme('LightBlue5')
    # 設(shè)置窗口
    layout = [
        [sg.Text('pdfToword', font=('微軟雅黑', 12)),
         sg.Text('', key='filename', size=(50, 1), font=('微軟雅黑', 10), text_color='blue')],
        [sg.Output(size=(80, 10), font=('微軟雅黑', 10))],
        [sg.FilesBrowse('選擇文件', key='file', target='filename'), sg.Button('開(kāi)始轉(zhuǎn)換'), sg.Button('退出')]]
    # 創(chuàng)建窗口
    window = sg.Window("Python與數(shù)據(jù)分析_青青", layout, font=("微軟雅黑", 15), default_element_size=(50, 1))
3、實(shí)現(xiàn)單個(gè)文件和批量文件操作
 # 事件循環(huán)
    while True:
        # 窗口的讀取,有兩個(gè)返回值(1.事件;2.值)
        event, values = window.read()
        print(event, values)

        if event == "開(kāi)始轉(zhuǎn)換":
            # 單個(gè)文件
            if values['file'] and values['file'].split('.')[1] == 'pdf':
                filename = pdf2word(values['file'])
                print('文件個(gè)數(shù) :1')
                print('\n' + '轉(zhuǎn)換成功!' + '\n')
                print('文件保存位置:', filename)
            # 多個(gè)文件
            elif values['file'] and values['file'].split(';')[0].split('.')[1] == 'pdf':
                print('文件個(gè)數(shù) :{}'.format(len(values['file'].split(';'))))
                for f in values['file'].split(';'):
                    filename = pdf2word(f)
                    print('\n' + '轉(zhuǎn)換成功!' + '\n')
                    print('文件保存位置:', filename)
            else:
                print('請(qǐng)選擇pdf格式的文件哦!')
        if event in (None, '退出'):
            break

    window.close()

4、調(diào)用主要功能函數(shù)
main()

四、打包代碼

1、打開(kāi)DOS窗口并切換到demo.py(這里我新建了文件夾,放到了D盤(pán))文件所在的目錄,注意路徑中不要有中文:
pyinstaller指令的常見(jiàn)可選參數(shù)
-i 給應(yīng)用程序添加圖標(biāo)
-F 指定打包后只生成一個(gè)exe格式的文件
-D –onedir 創(chuàng)建一個(gè)目錄,包含exe文件,但會(huì)依賴很多文件(默認(rèn)選項(xiàng))
-c –console, –nowindowed 使用控制臺(tái),無(wú)界面(默認(rèn))
-w –windowed, –noconsole 使用窗口,無(wú)控制臺(tái)
-p 添加搜索路徑

在當(dāng)前的目錄下,將會(huì)生成兩個(gè)文件夾:build和dist。dist里面就是所有可執(zhí)行exe文件,發(fā)送快捷方式到桌面,點(diǎn)擊 exe 就能運(yùn)行了。

五、解決exe文件過(guò)大問(wèn)題【可略】

1、如果生成exe之后,你發(fā)現(xiàn)你的程序異常的慢,請(qǐng)檢查你的導(dǎo)包代碼,盡量不要出現(xiàn)以下寫(xiě)法,否則每次啟動(dòng)程序,都會(huì)導(dǎo)入大量函數(shù)占用大量時(shí)間。

 from ··· import * 
 改成 import 包名 

2、搭建干凈的python虛擬環(huán)境
詳情見(jiàn)我的歷史文章:太強(qiáng)了!Python 開(kāi)發(fā)桌面小工具,讓代碼替我們干重復(fù)的工作, 里面介紹了什么是虛擬環(huán)境,以及如何搭建。

到這里,分享就結(jié)束了。主要為大家提高工作效率,辦公自動(dòng)化提供一種思路。歡迎大家在評(píng)論區(qū)一起交流討論~ 記得點(diǎn)贊呀

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容