easypoi+docx4j+wkhtmltopdf生成帶有富文本編輯內(nèi)容的word和pdf

大家好,我是“Java分布式架構(gòu)實(shí)戰(zhàn)”的作者Jamesfu。

需求背景

最近在做一個(gè)項(xiàng)目,需要將CMS中的內(nèi)容動(dòng)態(tài)地生成word文檔和pdf文檔。

word模板

Word模板主要包括頁(yè)眉、頁(yè)腳、正文。正文中又分為標(biāo)題、題注、富文本內(nèi)容。


image.png
  1. 經(jīng)過(guò)調(diào)研、測(cè)試發(fā)現(xiàn),Easypoi能較好地滿(mǎn)足模板化生成。但是沒(méi)有發(fā)現(xiàn)如何插入富文本內(nèi)容。
  2. 后來(lái)發(fā)現(xiàn)docx4j能夠插入富文本內(nèi)容。

使用Easypoi解析word模板

//構(gòu)造規(guī)章文檔生成參數(shù)
String notes = "";
if (StringUtils.isNotBlank(articleInsertVo.getNotes())) {
    notes = "(" + articleInsertVo.getNotes() + ")";
}
Map<String, String> params = new HashMap<>();
params.put("title", articleInsertVo.getTitle());
params.put("notes", notes);
params.put("content", articleInsertVo.getContent());

XWPFDocument doc = WordExportUtil.exportWord07(templatePath, data)
FileOutputStream fos = new FileOutputStream(outputFile)
doc.write(fos);
fos.flush();
fos.close();

使用docx4j插入富文本內(nèi)容

### 對(duì)html進(jìn)行標(biāo)準(zhǔn)化處理并增加字符集設(shè)置
Document document = org.jsoup.Jsoup.parse(htmlContent);
document.head().prepend("<meta charset=\"utf-8\"/>");
String normalizedHtmlContent = document.html();

### 將標(biāo)準(zhǔn)化后的html內(nèi)容插入word文件
WordprocessingMLPackage aPackage = WordprocessingMLPackage.load(outputFile);
MainDocumentPart mainDocumentPart = aPackage.getMainDocumentPart();
mainDocumentPart.addAltChunk(AltChunkType.Html, normalizedHtmlContent.getBytes(Charsets.UTF_8));
aPackage.save(outputFile);

將本地文件outputFile上傳到OSS

### 將本地文件轉(zhuǎn)換成MultipartFile后,執(zhí)行上傳
private MultipartFile fileToMultipartFile(File localFile) throws IOException {
    FileItem fileItem = new DiskFileItem("file",
            Files.probeContentType(localFile.toPath()),
            false, localFile.getName(),
            (int) localFile.length(),
            localFile.getParentFile());
    MultipartFile multipartFile;
    try (InputStream input = new FileInputStream(localFile); OutputStream os = fileItem.getOutputStream()) {
        IOUtils.copy(input, os);
        multipartFile = new CommonsMultipartFile(fileItem);
        return multipartFile;
    } catch (IOException ex) {
        throw new RuntimeException(ex);
    }
}

最終效果

最終,通過(guò)了Windows,MacOS上的Microsoft Word\WPS測(cè)試。

image.png

遇到的問(wèn)題

  1. 僅使用Easypoi生成的word文檔如下
image.png
  1. 使用docx4j向word文件中追加html網(wǎng)頁(yè)內(nèi)容時(shí)顯示html標(biāo)簽
    經(jīng)過(guò)排查發(fā)現(xiàn)html內(nèi)容不規(guī)范,缺少html/head/body標(biāo)簽,可以通過(guò)Jsoup進(jìn)行標(biāo)準(zhǔn)化。
Document document = org.jsoup.Jsoup.parse(htmlContent);
document.head().prepend("<meta charset=\"utf-8\"/>");
String normalizedHtmlContent = document.html();
image.png
  1. 使用docx4j向word文件中追加html網(wǎng)頁(yè)內(nèi)容時(shí)顯示亂碼
    經(jīng)過(guò)排查發(fā)現(xiàn)html內(nèi)容head中缺少meta標(biāo)簽:<meta charset="utf-8"/>
    image.png

總結(jié)

本項(xiàng)目的難點(diǎn)在于正文是富文本編輯器產(chǎn)生的一段html內(nèi)容,最終通過(guò)Easypoi和docx4j組合來(lái)生成word文檔。在測(cè)試過(guò)程中,本來(lái)想用word轉(zhuǎn)pdf,經(jīng)過(guò)測(cè)試發(fā)現(xiàn)docx4j轉(zhuǎn)pdf不能正常處理頁(yè)眉、頁(yè)腳和html內(nèi)容部分。后來(lái)發(fā)現(xiàn)可以考慮用wkhtmltopdf來(lái)生成pdf。

/usr/local/bin/wkhtmltopdf \
--enable-local-file-access \
--header-html file:///Users/jamesfu/data/temp/ruleArticle/header.html \
--footer-html file:///Users/jamesfu/data/temp/ruleArticle/footer.html \
/Users/jamesfu/data/temp/ruleArticle/gz.html \
/Users/jamesfu/data/temp/ruleArticle/gz.pdf
image.png

看到這個(gè)結(jié)果我還是挺興奮的,wkhtmltopdf幫助我們打印出來(lái)漂亮的頁(yè)眉、頁(yè)腳和內(nèi)容,只是出現(xiàn)了亂碼而已。此亂碼問(wèn)題,應(yīng)該是文件亂碼導(dǎo)致的。通過(guò)Visual Studio Code查看文件發(fā)現(xiàn)是UTF-8編碼.

image.png

那為什么還會(huì)打印出亂碼呢?

我點(diǎn)擊右下角的編碼,彈出菜單,選擇“Save with Encoding”, 文件重新保存為“UTF-8”。

image.png

文件編碼調(diào)整為“UTF-8”后,重新打印為pdf文件,一切正常了,接下來(lái)還需要研究書(shū)簽和目錄。

image.png

先簡(jiǎn)單寫(xiě)到這里吧,這一周為這個(gè)事費(fèi)了不少精力。

參考資料

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容