
昨天晚上把一個掃描的文件,經(jīng)過文字識別,用vim轉化成了PDF。這個過程用到了很多編程時養(yǎng)成的習慣,非常有趣,特此記錄。
把文本文件掃描成PDF
在PDF中進行文字識別(Text Recognition)
把識別出的文字輸出到一個markdown文件:demo.md
a) 輸出下劃線的時候,為了防止轉義,可以當做代碼來輸入:____文字____用vim編輯markdown文件
a) 修改識別錯的文字,快捷鍵是fa, cnw, ctb, n是一個數(shù)字,a和b代表一個字母
b) 連接不應該分行的句子??,快捷鍵是shift+j把markdown文件生成html文件:demo.html
pandoc --ascii -f markdown -t html -o demo.html demo.md
問題:html文件的默認表格格式不能讓我滿意。手工修改html文件中的表格設置:demo.html
a)設置表格總的寬度width:<table style="width:100%;">
b)設置每列的寬度width:<col width="15%" />
c)設置單元格的垂直對齊方式valign:
<td align="left" valign="top">Contents</td>
經(jīng)驗:應用Google Chrome的Developer Tools和學習CSS把html文件生成pdf文件:demo.pdf
wkhtmltopdf demo.html demo.pdf