什么雙層PDF(矢量PDF)
“雙層PDF”又稱為“可檢索式PDF”(searchablePDF),一般將其定義為“底層是掃描圖像(Image)層,上層是透明文字(Text)層的PDF,閱讀時看到的是與紙樣一致的底層掃描圖像,搜索或用光標選取時又可直接對上層文字進行操作。因其具有文字可檢索的性質(zhì),可以在網(wǎng)絡上進行在線檢索,并通過建立索引數(shù)據(jù)庫進行科學的管理,所以非常適用于網(wǎng)絡期刊。萬方和維普期刊數(shù)據(jù)庫對用方正書版排版的期刊就是將樣刊掃描后,經(jīng)OCR識別生成Image-Text(圖像-文本)型雙層PDF文件以供下載。
優(yōu)缺點
雙層PDF制作是在已有的單層PDF文件基礎上進行加工,因此,需要對常用的書版文件轉(zhuǎn)PDF的方法進行分析,以篩選出適于用來制作雙層PDF的文件素材。一是書版文件直接轉(zhuǎn)換為Text型矢量PDF,二是文杰打印機虛擬打印生成Graphics型矢量PDF,三是PSPPRO虛擬打印法生成Image型光柵PDF。
雙層PDF的制作方法
方法一:ABBYYFinereader(簡稱ABBYY)
利用ABBYYFinereader(簡稱ABBYY)9.0.0.882以上版本。該軟件可識別2.1.1、2.2和2.3節(jié)生成的各類PDF文件,在打開文件的同時就將矢量PDF進行光柵化處理。在ABBYY界面中,選擇“頁面”的“文檔語言” 為“簡體中文;英文”,打開單層PDF文件,即開始逐頁進行文本識別選擇轉(zhuǎn)換識別,點擊“編輯圖像”,對圖像分辨率進行選擇或設定,一般默認為300dpi。識別結束后將文件另存為“PDF/A文檔”,即為雙層PDF文件。
方法二:ReadirisCorperate(簡稱Readiris)
利用ReadirisCorperate(簡稱Readiris)10以上 中文版本。Readiris中文版帶有亞洲識別模塊,對中文識別準確,可處理光柵PDF文件和Graphics型矢量PDF文件,在對后者進行識別時將其光柵化,得到的是底層圖像為300dpi的雙層PDF。打開軟件,將“字符 識別向?qū)А?中的圖像來源選擇為“圖像文件”,語言為“中文(簡體)”,次要語言為“英式英語”和“英語(美 國)”,格式輸出為“發(fā)送到Acrobat/Reader圖像-文本”。打開單層PDF文件,點擊“識別+保存”,即生成 雙層PDF文件。在“格式”的“PDF選項”中勾取“制作書簽”,便會隨文件生成用頁碼和標題作為索引的 書簽,便于查找文中內(nèi)容。
來源:周雪瑩:采用雙層PDF形式將方正書版文件制作為可檢索式PDF文件