使用R語(yǔ)言合并壓縮PDF

市面上的PDF合并和壓縮挺貴的,雖然有很多免費(fèi)額度,但是文件一旦大到定程度,動(dòng)不動(dòng)就要開(kāi)會(huì)員,其實(shí)要是懂點(diǎn)R語(yǔ)言或者其他語(yǔ)言,其實(shí)是完全不需要花費(fèi)任何money的,而且速度可能比線上的壓縮合并更快

R語(yǔ)言處理PDF軟件包精選 - 知乎 (zhihu.com)
這篇文章很好介紹了目前PDF操作有哪些R包::
R中可以對(duì)PDF做很多操作,如關(guān)鍵詞提取、頁(yè)數(shù)統(tǒng)計(jì)、多PDF拆分與合并等。這里精選相關(guān)R包,以便于后續(xù)取用。

CRAN - Package pdfsearch:可以找到關(guān)鍵字在PDF文件中的所在行,以及上下的行的文本。如果要對(duì)PDF文件做文本分析,是一個(gè)很好的工具。

CRAN - Package staplr:對(duì)PDF文件進(jìn)行合并、拆分、刪除、旋轉(zhuǎn)、重命名等操作。

CRAN - Package qpdf:對(duì)PDF文件進(jìn)行拆分、合并和壓縮。

CRAN - Package pdftools:可以對(duì)PDF中的數(shù)據(jù)進(jìn)行提取,同時(shí)可以高效轉(zhuǎn)格式(如JPG等圖片格式)。

這里我主要是用 qpdf
使用也就是幾句代碼而已

getwd()
setwd("文件位置的絕對(duì)路徑")
sort(dir()) #查看這個(gè)文件夾下有什么文件,主要有以下文件
#[1] "1-1.pdf" "1-2.pdf" "1-3.pdf" "1-4.pdf" "1-5.pdf"
# [6] "1-6.pdf" "1-7.pdf" "1-8.pdf" "1-9.pdf" "10.pdf" 
#[11] "11.pdf"  "12.pdf"  "13.pdf"  "14.pdf"  "15.pdf" 
#[16] "16.pdf"  "17.pdf"  "18.pdf"  "19.pdf"  "20.pdf"

于是就把這個(gè)文件夾下面所有的pdf合并了(普通電腦不知道要多久,300M的文件反正服務(wù)器一秒搞完)

library(qpdf) 
pdf_combine(sort(dir()),
            output = "all_new.pdf")

壓縮PDF

pdf_compress("all_new.pdf",linearize = T) 

其實(shí)它還有拆分PDF等功能

Details

Currently the package provides the following wrappers:

  • pdf_length: show the number of pages in a pdf

  • pdf_split: split a single pdf into separate files, one for each page

  • pdf_subset: create a new pdf with a subset of the input pages

  • pdf_combine: join several pdf files into one

  • pdf_compress: compress or linearize a pdf file

但是要是PDF文件合并之后有大有小怎么辦?這個(gè)R包就幫不上什么忙,但是研究了一下發(fā)現(xiàn)有些小技巧:
用edge瀏覽器打開(kāi)PDF,然后選擇打印,選擇Microsoft Print to PDF,默認(rèn)選擇A4,然后打印為PDF就OK了,東西就非常整齊,而且大小也會(huì)小很多。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容