和大家朝夕相處的產(chǎn)品君其實(shí)也是也是一位愛好旅行的小青年,產(chǎn)品君一直幻想有一天可以去一趟浪漫的歐洲,行走在盧浮宮前,拿出手機(jī)即刻一拍,博物館的歷史躍然"屏上";乘坐已有一百多年歷史的巴黎地鐵,手機(jī)一掃,翻譯好的車站名立刻呈現(xiàn);拍攝街景的同時(shí),文字介紹也同時(shí)顯現(xiàn)~~產(chǎn)品君并沒有在做夢(mèng),這些旅途中的小科技依靠OCR技術(shù)完全可以實(shí)現(xiàn),可盡管OCR技術(shù)強(qiáng)大,它還有個(gè)多年勁敵,這也是今天產(chǎn)品君想為大家隆重介紹的主角,它不是別人,就是 “驗(yàn)證碼”!
“驗(yàn)證碼”?!產(chǎn)品君你有木有搞錯(cuò)啊,就是那個(gè)被玩壞的12306嗎?好吧產(chǎn)品君承認(rèn),這個(gè)畫風(fēng)確實(shí)相差有點(diǎn)大,可是今天產(chǎn)品君正要好好的為“驗(yàn)證碼”下名,不要小瞧這驗(yàn)證碼,它背后還有好多你不知道的事嘞,尤其是最近的大新聞,谷歌推出新驗(yàn)證碼服務(wù)(Invisible reCAPTCHA),不用點(diǎn)擊即可攔截各種惡意訪問,簡(jiǎn)直強(qiáng)大無敵啊!
要為大家詳細(xì)介紹谷歌隱形驗(yàn)證碼服務(wù)這神一般的進(jìn)階史,那一定得先從“CAPTCHA”說起,盡管這個(gè)單詞看著就有點(diǎn)像亂碼,它其實(shí)是“Completely Automated Public Turing Test to Tell Computers and Humans Apart”的首字母縮寫,含義為“全自動(dòng)區(qū)分計(jì)算機(jī)和人類的圖靈測(cè)試”。
據(jù)說啊,這最早的驗(yàn)證碼機(jī)制首先是來源于黑客的暗語,他們不想讓機(jī)器讀懂他們的語言,于是將拉丁字母用符號(hào)、數(shù)字等提到表示出來。比如罵人“shit”(狗屎)就被他們寫成“$#!+”。1997年,當(dāng)時(shí)有人通過程序發(fā)“鏈接炸彈”到引擎庫中,導(dǎo)致搜索結(jié)果被污染,AltaVista的搜索引擎的工程師就開始構(gòu)思驗(yàn)證碼的產(chǎn)品原型。到了2002年,來自卡內(nèi)基梅隆大學(xué)的學(xué)生團(tuán)隊(duì)更深化了驗(yàn)證碼的概念,并起了個(gè)名字“reCAPTCHA”,致力于保護(hù)人類免受計(jì)算機(jī)的攻擊,這項(xiàng)技術(shù)在2009年被google收購(gòu)。
當(dāng)時(shí)他們的設(shè)計(jì)是這樣的:當(dāng)傳來一個(gè)訪問請(qǐng)求后,計(jì)算機(jī)就會(huì)隨機(jī)生成一組數(shù)字或符號(hào),然后通過一些隨機(jī)的規(guī)則使其難以辨認(rèn),例如使其變色、扭曲,再加上橫線、斑點(diǎn),最終生成一幅圖片。他們認(rèn)為你是人嘛,你肯定認(rèn)識(shí)這些亂七八糟的圖案,可是產(chǎn)品君想說,也不是那么好認(rèn)啊,這都是什么字體呀,真實(shí)逼死寶寶了!
現(xiàn)在由產(chǎn)品君為大家介紹下這個(gè)reCAPTCHA的工作原理,這也是一項(xiàng)人工智能呀,而且它還有無心插柳柳成蔭的神奇功效。
它的原理是這樣:
Step1 :我們選擇一篇年代比較久遠(yuǎn)看不太清的文章
Step2 :我們從這篇文章中提取一個(gè)不能進(jìn)行OCR的詞,這個(gè)詞的特點(diǎn)就是不易辨認(rèn)
Step3: 我們加上一些符號(hào)讓這個(gè)詞更不好識(shí)別
Step4: 生成兩個(gè)驗(yàn)證碼
軟件將能夠正確識(shí)別CAPTCHA詞的用戶看作是人類,當(dāng)CAPTCHA詞被正確識(shí)別出來后,程序判別,此人為人。然后勒,程序再把另一個(gè)難認(rèn)詞添加到數(shù)據(jù)庫中,這樣啊也就借助人完成了一次人工OCR識(shí)別!
為什么要設(shè)計(jì)這個(gè)環(huán)節(jié)呢?因?yàn)槠鋵?shí)當(dāng)用戶在費(fèi)老大勁識(shí)別這些難認(rèn)字符的同時(shí)也為古籍保護(hù)作出一點(diǎn)點(diǎn)貢獻(xiàn),畢竟又不是所有文章印到電腦里都是清晰可見的,大家一定有這樣的感受,讀一篇年代稍微久遠(yuǎn)的文獻(xiàn),那個(gè)費(fèi)勁呀。舉個(gè)栗子比如下面這篇文章:
在電腦眼中就是這樣的,簡(jiǎn)直是一片亂碼~
而對(duì)于那些實(shí)在難以辨認(rèn)的單詞,程序會(huì)設(shè)計(jì)多人校驗(yàn)提高正確率。它所取得的巨大成果是:借助廣大網(wǎng)民之手,紐約時(shí)報(bào)從1851年到現(xiàn)在的所有報(bào)紙,總共超過1千3百萬篇文章都已經(jīng)成功錄入計(jì)算機(jī)。如果依靠手工輸入,人力,資金,時(shí)間都將是巨大的,然而借助reCAPTCHA, 以及每天上網(wǎng)的我們,這項(xiàng)工作短時(shí)間內(nèi)就完成啦。( 這不就是咱免費(fèi)眾包的形式嘛,谷歌大大好聰明!)
谷歌還將這項(xiàng)技術(shù)充分支持了它偉大的板塊—谷歌地圖中, Google 讓reCAPTCHA 里顯示街景的圖片。這樣就可以從街景里提取如街道名稱和交通標(biāo)志等數(shù)據(jù),向 Google 地圖里添加商鋪地址和位置等有用信息,準(zhǔn)確率達(dá)90%。我們回到上面那種照片,是不是除了文字還有很多門牌號(hào)信息需要識(shí)別。
但是總是識(shí)別這些難識(shí)別的文字和街牌號(hào)很無趣,在2014年,谷歌對(duì)reCAPTCHA進(jìn)行了一次大升級(jí),簡(jiǎn)化了人機(jī)識(shí)別的流程同時(shí)也大大提高了準(zhǔn)確性,基本上也是我們現(xiàn)在打開Youtube使用的識(shí)別機(jī)制~
不用再識(shí)別那些難認(rèn)的文字,改成讀圖識(shí)圖回答問題,如果程序判斷你是人,你就可以開心地瀏覽網(wǎng)頁,而如果判斷你是機(jī)器人呵呵,那題目難度直接升級(jí)!它所應(yīng)用的技術(shù)還包括機(jī)器學(xué)習(xí),可識(shí)別風(fēng)險(xiǎn)機(jī)制,而除了根據(jù)問題的答案進(jìn)行人機(jī)判斷,程序還會(huì)根據(jù)用戶的行為習(xí)慣比如打字的速度翻頁點(diǎn)擊的習(xí)慣來做出選擇。
(升級(jí)版reCAPTCHA的工作原理)
據(jù)統(tǒng)計(jì)reCAPTCHA的技術(shù)可以大大提高識(shí)別準(zhǔn)確率,總共可以有效節(jié)約用戶每天50000小時(shí)的上網(wǎng)時(shí)間。而在3月13日推出的隱形驗(yàn)證碼服務(wù)中,盡管谷歌公司并沒有太多透露,但我們可以得知這個(gè)神級(jí)的驗(yàn)證碼服務(wù)都不用點(diǎn)擊“是不是機(jī)器人的選項(xiàng)”,程序可以依據(jù)日常的上網(wǎng)習(xí)慣直接作出判斷。
(官網(wǎng)公布的代碼)
新聞一發(fā)布,網(wǎng)上就開始有各種各樣攻破隱形驗(yàn)證碼的信息,如果這個(gè)黑科技投入使用,產(chǎn)品君心理這是一陣暗喜,不用再輸入那些復(fù)雜的識(shí)別碼即刻獲得高效通暢的上網(wǎng)體驗(yàn),好像有個(gè)隱形保鏢為我們上網(wǎng)保駕護(hù)航。但由于谷歌公司還沒有太多透露,而對(duì)于那些經(jīng)常清理cookies的用戶來說,還存在用戶行為不好追蹤等問題,還有依舊強(qiáng)大的OCR技術(shù)持續(xù)緊逼,產(chǎn)品君表示還需要再一步觀測(cè)~~