有時(shí)你遇到一篇古老的文獻(xiàn),PDF文檔還是掃描版。又或者是遇到一幅網(wǎng)頁(yè)版海報(bào),上面的文字你完全看不懂。
但你無(wú)法把圖片中的文字復(fù)制下來(lái)做進(jìn)一步處理,是不是讓人頭大?
雖然市場(chǎng)上有很多OCR軟件可以識(shí)別圖片中的文字,但還是有種種局限性,比如無(wú)法識(shí)別文字排版,需要轉(zhuǎn)成其他文件后才能處理,無(wú)法直接操作。
最近,一位來(lái)自MIT的學(xué)生Kevin Kwok解決了以上這些問(wèn)題。他用計(jì)算機(jī)視覺(jué)算法寫了個(gè)Chrome插件Naptha,可以直接識(shí)別網(wǎng)頁(yè)圖片中的文字,并直接對(duì)它們進(jìn)行高亮、復(fù)制粘貼、翻譯、修改等操作。
拾取圖片中的文字
Naptha無(wú)需在電腦上安裝App,直接在Chrome應(yīng)用商店中搜索Project Naptha,就可以看到這款插件,一鍵安裝后即可在Chrome瀏覽器中使用。
Naptha可以用于在線漫畫、掃描文檔,甚至連拍攝照片中的文字也能識(shí)別出來(lái)。
普通的網(wǎng)頁(yè)文字自然不在話下:
如果是別人給你發(fā)過(guò)來(lái)的掃描文件也沒(méi)關(guān)系,直接把文件拖到Chrome瀏覽器中(Chrome支持打開多種本地文件),Naptha就能識(shí)別。
對(duì)于照片中的圖片,Naptha也能夠讀出。作者Kevin拍攝了一本書的封面,除了文字不清晰、豎向排列的情況,封面的書名和簡(jiǎn)介都能正常識(shí)別出來(lái)。
Naptha還支持讀取表格文字,并將復(fù)制下來(lái)的文字粘貼到Excel里。
Kevin承諾,Naptha未來(lái)還會(huì)加入翻譯、除去文字水印、直接在圖片上修改文字等功能。這些功能目前還處在beta測(cè)試階段,處于不穩(wěn)定或者不可用狀態(tài)。
不是OCR,是文本檢測(cè)
光學(xué)字符識(shí)別(OCR)已經(jīng)不是什么新鮮事了,雖然Naptha實(shí)現(xiàn)的功能看起來(lái)像OCR,但實(shí)際上它主要功能實(shí)際上是文本檢測(cè)。
一般的OCR不包含語(yǔ)言模型,而Naptha則可以根據(jù)上下文的概率輸出一系列字母。比如把一串字符判定成“hello”,而不是“he1 | o”。
OCR需要知道圖片中的語(yǔ)言才能正確識(shí)別文本,Naptha使用的是一種稱為“ 筆劃寬度變換”的算法,該算法由微軟研究院于2008年提出,它就像人一樣,即使不知道是何種語(yǔ)言,也能猜到文字就在那里。
結(jié)合其他算法,如連通分量分析(識(shí)別不同的字母)、otsu閾值(確定字間距)、不相交的集合森林(識(shí)別文本行),Naptha可以非??焖俚亟⑽谋緟^(qū)域、單詞和字母的模型,識(shí)別圖中存在哪些特定字母。
通過(guò)一些基本的布局分析和文本度量,Naptha還可以找出文本的對(duì)齊參數(shù)、字體大小和字體粗細(xì)。有了這些信息,它可以在同一個(gè)地方以類似的字體重新打印文本,或者將文本改成同字體的其他文字。
傳送門
博客地址:
https://projectnaptha.com/
Chrome插件下載地址:
https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf