OCR簡介與個人理解
OCR,即:Optical Character Recognition ,個人謹譯作“可視化字符識別”??珊唵蔚睦斫鉃椤救搜刍诠鈱W散射所見文字可以方便的被提取為電子文檔,進而方便地閱讀,打印,傳播等】
這款技術(shù)帶來的直接便利就是 :提取照片上文字、掃描“可視化文檔”轉(zhuǎn)換成易于處理的“普通電子文檔”。
相關(guān)軟件
得益于計算機技術(shù)的迅猛發(fā)展,軟件層面即可簡單的實現(xiàn)OCR基本功能。
PDFelement ,就是一款不錯的軟件,大家可以一試,具體操作自行谷歌、百度。
OCR發(fā)展簡史
以下資料源于互動百科
OCR的概念是在1929年由德國科學家Tausheck最先提出來的,后來美國科學家Handel也提出了利用技術(shù)對文字進行識別的想法。而最早對印刷體漢字識別進行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。
中國在70年代末開始進行漢字識別的研究,到1986年,我國提出“863”高新科技研究計劃,漢字識別的研究進入一個實質(zhì)性的階段,清華大學的丁曉青教授和中科院分別開發(fā)研究,相繼推出了中文OCR產(chǎn)品,現(xiàn)為中國最領先漢字OCR技術(shù)。早期的OCR軟件,由于識別率及產(chǎn)品化等多方面的因素,未能達到實際要求。同時,由于硬件設備成本高,運行速度慢,也沒有達到實用的程度。只有個別部門,如信息部門、新聞出版單位等使用OCR軟件。進入20世紀90年代以后,隨著平臺式掃描儀的廣泛應用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。