圖像識別——突破與應(yīng)用

最近,圖像識別領(lǐng)域發(fā)布了白皮書,簡單翻譯一下做個總結(jié)。

目錄

[1] Introduction
?????1.1 Exponential Growth of Image and Video
?????1.2 Statistics
[2] Image Recognition
[3] Recent Innovations
?????3.1 Approaches
?????3.2 Deep Neural Networks
[4] Applications
?????4.1. Information Organization
?????4.2. Industrial Automation and Inspection
?????4.3. Detecting events
?????4.4. Human-Computer Interaction
?????4.5. Modeling objects and environments
?????4.6. Navigation
?????4.7. Marketing, Sales, Customer Experience and Advertising
?????4.8. Weak AI vs. Strong AI


[1] 引言

1.1 圖像和視頻的指數(shù)級增長

從二十世紀中葉起,非結(jié)構(gòu)化數(shù)據(jù)就以一個很快地速度在增長。然而,所產(chǎn)生的數(shù)據(jù)中有80%是非結(jié)構(gòu)化的多媒體內(nèi)容,未能把重點放在組織大數(shù)據(jù)的舉措上,這個多媒體內(nèi)容的很大一部分是圖像和視頻。智能無線設(shè)備的迅速普及以及通過互聯(lián)網(wǎng)共享圖像和視頻的興起,對這類內(nèi)容的大規(guī)模增長作出了重大貢獻。圖像和視頻反映了人類知識、互動和對話的很大一部分。如今,圖像和視頻數(shù)據(jù)中的大量知識為創(chuàng)造新的使用案例、應(yīng)用和產(chǎn)品創(chuàng)造了極大的機會。幾十年來,對圖像的處理,理解和識別一直是人工智能(AI)和機器學習(ML)中的一個巨大的技術(shù)挑戰(zhàn),但在過去的十年里,已經(jīng)有了一些突破。

人們現(xiàn)在使用智能手機相機與企業(yè)(零售商,金融機構(gòu),供應(yīng)商,醫(yī)療服務(wù)提供商,保險公司等)進行通信(例如電子郵件,聊天,博客)的便利性也使得圖像和視頻在不同行業(yè)的公司進行溝通,并激勵他們投資這個領(lǐng)域。圖像和視頻需要更大的存儲和帶寬容量以及更高的安全/隱私標準。對于這些應(yīng)用程序中的許多應(yīng)用程序,自動理解圖像/視頻將為增強客戶體驗提供新的商業(yè)機會。這使與非結(jié)構(gòu)化數(shù)據(jù)增長相關(guān)的常見問題變得復雜化,例如數(shù)據(jù)保護成本不斷上升,基礎(chǔ)架構(gòu)復雜性增加,數(shù)據(jù)消費增長速度快于IT存儲占用增長。

創(chuàng)建和共享圖像并不是圖像識別流行的唯一原因。圖片比文字更具有影響力,因為它們往往更具吸引力。圖像更可能被共享和轉(zhuǎn)發(fā)。人們利用圖像/視頻來捕捉他們的特殊時刻。但是,圖像已經(jīng)發(fā)展成為一種交流手段。 “Z時代” 的首選溝通方式被認為是圖像。相反,千禧一代溝通的首選機制是文本。

1.2 統(tǒng)計

統(tǒng)計數(shù)據(jù)突出了近年來對圖像識別興趣大增的原因。首先,圖像識別市場預(yù)計從2016年的159.5億美元擴大到2021年的389.2億美元,2016年至2021年的復合年增長率為19.5%。

Facebook是互聯(lián)網(wǎng)上最大的圖片分享網(wǎng)站。圖片是Facebook上最大的數(shù)據(jù)使用來源。平均每天有3億多張圖片上傳到網(wǎng)站上。這個數(shù)字起初可能令人震驚,但考慮到每天通過智能手機訪問Facebook站點的活躍用戶數(shù)量(每月20億)(截至2017年2月1日,每天有11.5億移動活躍用戶)加上人們依賴這些設(shè)備上的相機,數(shù)字是有道理的。截至2016年9月1日,YouTube擁有每天10億移動用戶,每分鐘視頻上傳到網(wǎng)站的時間為300小時。


[2] 圖像識別

圖像識別的目標是識別圖像中的對象和人,并理解上下文。圖像識別屬于機器知覺,機器知覺是機器學習(ML)和人工智能(AI)的一部分。人類有很多感官——嗅覺、聽覺、味覺、觸覺(體感)和視覺這五種傳統(tǒng)認知的感覺。構(gòu)建智能機器人需要一定的能力來理解周圍的環(huán)境,并通過視覺、言語和觸覺來與之交互,此外還需要有某些與人類相似的運動和推理水平。幾十年來,在工業(yè)機器人要完成的具體受控自動化任務(wù)的背景下,它們在其中一些領(lǐng)域的能力非常有限。對于許多工業(yè)自動化任務(wù),通過利用其他類型的傳感器(紅外,距離傳感器,磁性,超聲波等)作為視覺的替代,簡化了在受控環(huán)境中與感興趣的對象的識別和交互。隨著圖像識別技術(shù)的進步,相機最終可以取代許多自動化應(yīng)用中的這些傳感器。

當我們談?wù)撊祟愐曈X感知時,我們討論的是利用環(huán)境中物體所反射的可見光譜中的光線來解釋周圍環(huán)境的能力。最近對圖像識別的興趣激增主要集中在這種類型的感官輸入上。例如,無人駕駛汽車需要顯著改進的視覺處理和識別能力,此外,還有許多其他的關(guān)鍵感官輸入來做出正確的決定。

一般來說,機器感知模擬人腦可以毫不費力地理解感官輸入,特別是視覺、聽覺和觸覺。大腦的視覺皮層是處理來自眼睛的視覺信息的一部分。視覺在生命的早期階段迅速發(fā)展,并作為發(fā)展認知、行動、溝通和與環(huán)境相互作用的基礎(chǔ)。當我們更快速地處理視覺效果時,我們的大腦連接起來進行視覺溝通。人類處理視覺輸入比文本快60,000倍。

處于早期階段的兒童可以通過視覺學習識別許多不同的物體。人類的這種能力已經(jīng)讓科學家困惑了很長時間。具體而言,挑戰(zhàn)在于設(shè)計在機器中復制這種能力所需的各種計算算法嗎?令人驚訝的是,一個小孩子對汽車或其組件的內(nèi)在作用一無所知,但是他/她可以毫不費力地在他/她看到的場景或圖像中識別出汽車。孩子們?nèi)绾螌W習這一點?他們通過例子來學習。 “通過實例學習”的概念對于AI / ML一般而言是特別重要的,機器感知是基本的。人工神經(jīng)網(wǎng)絡(luò)(以下簡稱ANN)是模仿機器學習的最流行的系統(tǒng)。ANNs 通過考慮他們需要學習什么樣的例子(稱為訓練),可以逐步提高表現(xiàn)(即他們“學習”),大多沒有特定任務(wù)的編程。受到大腦中神經(jīng)元的啟發(fā),人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被組織在許多層次中,每層神經(jīng)元可以對其輸入執(zhí)行不同類型的變換。


[3] 最近的變革

3.1 方法

圖像識別歷史悠久。在計算機視覺,物體識別,機器視覺,場景理解,圖像理解,圖像分類和圖像分析等不同名稱下,存在相關(guān)和/或同義字段的圖像識別。計算機(或機器)的視覺總體上涵蓋了識別作為一個子部分,同時它也涉及圖像重組和重構(gòu)。在更高層次上,有兩種不同的技術(shù)方法能夠解決圖像識別任務(wù)。

第一種方法(我們稱之為傳統(tǒng)圖像識別)的重點在于從圖像中查找和提取人工設(shè)計的特征(如邊緣,角落,顏色)以幫助分類對象。雖然人類的大腦非常擅長對物體進行分類(早年發(fā)展),但我們的大腦在視覺處理中將使用哪些特征尚不清楚。自80年代和90年代以來,傳統(tǒng)的圖像識別方法通常通過從圖像中提取一系列特征來實現(xiàn),實際上通過多年的實驗和分析手動編碼。然后使用學習算法來基于這些人工設(shè)計特征來識別圖像中的對象。

在第二種方法中,目標仍然是提取幫助識別圖像中的對象的特征。然而,它不是利用人工設(shè)計的特征,而是利用自動化程序從原始圖像像素數(shù)據(jù)中“學習”這些顯著的特征。學習使用大量的圖像進行。人工神經(jīng)網(wǎng)絡(luò)模型,特別是深度神經(jīng)網(wǎng)絡(luò),近年來已經(jīng)徹底改變了這種方法。顧名思義,深層神經(jīng)網(wǎng)絡(luò)是可能具有更多神經(jīng)元層的神經(jīng)網(wǎng)絡(luò),其中每層神經(jīng)元連接到下一層(不一定完全連接),并且能夠?qū)W習輸入圖像的更高層表示(特征)。這個想法已經(jīng)存在了很長一段時間,然而,在過去的十年中,實現(xiàn)了巨大的圖像數(shù)據(jù)集和巨大的處理能力。它使這種方法變得可行,因為它已經(jīng)引起了計算機視覺方面的革命。當使用深度神經(jīng)網(wǎng)絡(luò)時,學習被稱為深度學習。

3.2 深層神經(jīng)網(wǎng)絡(luò)

ImageNet 和 Pascal VOC 是可用于研究和探索目的的兩個大型開放式標記圖像數(shù)據(jù)集。 ImageNet 是由斯坦福大學和普林斯頓大學的熟練計算機科學家在2009年贊助和發(fā)起的,有80,000張標記圖像。它以其年度視覺識別挑戰(zhàn)(稱為 ILSVRC)而聞名,其中學術(shù)和工業(yè)領(lǐng)域的不同參與者聚集在 ImageNet 數(shù)據(jù)上競爭最佳的圖像識別算法性能。到2016年,它已經(jīng)發(fā)展到包含超過1400萬個標記圖像,隨時可用于機器學習。由英國各大學贊助的 Pascal VOC擁有更少的圖像,但更豐富的圖像注釋。用于圖像識別的性能最好的深度神經(jīng)網(wǎng)絡(luò)被稱為“卷積神經(jīng)網(wǎng)絡(luò)”(以下稱為CNN)。與傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò)相比,CNN具有一些特殊的性質(zhì),使他們能夠自動學習相關(guān)的特征。從原始的原始圖像開始,CNN在圖像上應(yīng)用一組不同的變換或過濾,在每個變換中它學習圖像的更緊湊的表示。在訓練結(jié)束后,CNN 學習了一組更加抽象的特征來表示圖像。然后將這些特征用作分類算法的輸入,通常是輸出層之前的完全連接的ANN,以識別圖像。下圖描繪了用于人臉識別的深層神經(jīng)網(wǎng)絡(luò)和多層。每一層都學習了更密集和更濃縮的輸入圖像。



現(xiàn)在的神經(jīng)網(wǎng)絡(luò)可以有幾千到幾百萬的神經(jīng)元,有數(shù)百萬的連接。 CNN只能處理固定大小的輸入和輸出,這意味著他們可以學習固定的映射,沒有時間概念。被稱為遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的另一個ANN系列適用于學習輸入序列。除了機器翻譯,自然語言處理(NLP),情感分析和語音識別之外,它們還發(fā)現(xiàn)了圖像和視頻字幕的各種用途。在2012年的 ImageNet 大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)競賽中,一組研究人員制作了一個CNN模型(稱為AlexNet),比起傳統(tǒng)模式的方法,該模型顯著地在 ImageNet 上達到 85%準確度(改進的性能精度為10.8%,等價于41%的誤差改善率)。這是圖像識別史上的一個轉(zhuǎn)折點,也是這個領(lǐng)域前途光明的開始。這個成就將焦點從傳統(tǒng)的圖像識別方法轉(zhuǎn)移到了使用深度神經(jīng)網(wǎng)絡(luò)的新方法。在2013年的 ILSVRC 競賽中,所有參與者(包括獲獎?wù)撸┒加谢谏疃葘W習技術(shù)的解決方案和算法。在2015年的 ILSVRC 競賽中,基于CNN的多種算法超過了95%的人類識別率(5%的錯誤率)。在2017年,38位參與者中有29位超過了95%的人類識別率,最高的是97.3%,如圖。



[4] 應(yīng)用

近年來圖像識別領(lǐng)域的技術(shù)進步為汽車、廣告等眾多行業(yè)帶來了巨大的商機。特別是它推動了在線視覺革命。還有傳統(tǒng)的使用案例也將從這些改進中受益。在這里列出一些這些應(yīng)用程序。這個清單并不全面。

4.1 信息組織

由于最近的高準確度成果導致的圖像識別的一個顯而易見的新應(yīng)用是基于內(nèi)容的圖像的自動標記以用于索引圖像和圖像序列的數(shù)據(jù)庫。自動索引會導致更大的一組圖像可用于搜索。使用一些描述性詞語,可以輕松定位和選擇感興趣的圖像(圖像搜索)。具有大量視覺數(shù)據(jù)庫的網(wǎng)站,如股票攝影和視頻網(wǎng)站,是值得注意的。其中一個有用的變化是“按圖像搜索”,其中一個將示例圖像提交給應(yīng)用或在線網(wǎng)站,其中類似的圖像被返回以供選擇(例如通過谷歌搜索圖像)。

隨著移動設(shè)備和媒體云服務(wù)的大量普及,個人照片收藏空前成長。其中一個流行的用例是使用自動標記軟件來管理和組織越來越多的個人照片。圖像識別技術(shù)也用于識別圖像中的多個元素,如對象、活動、標識、背景場景等(圖5)。這為自動圖像字幕提供了一個智能的方法。自動圖像字幕本身打開了大量新的業(yè)務(wù)用例的大門。識別場景中的人臉(人臉識別)是人類可以輕松做到的事情,但是培訓計算機做同樣的工作卻一直是一個挑戰(zhàn)。近年來,這個領(lǐng)域已經(jīng)有了各種各樣的突破,人臉識別現(xiàn)在是許多應(yīng)用(移動和在線)的一部分,例如,在Facebook上基于人臉識別的標簽建議。

4.2 工業(yè)自動化與檢測

三十年來,工業(yè)過程已經(jīng)從一些有限的圖像識別形式中獲益,并且通常在受控環(huán)境中。汽車制造和自動電子組裝(用于印刷電路板)是兩個顯著的例子。一個普遍但受歡迎的應(yīng)用是工業(yè)質(zhì)量控制,其中使用圖像識別來自動檢查最終產(chǎn)品或部件產(chǎn)品的缺陷。另一個例子是識別工業(yè)機器人在組裝過程中拾取物體的位置和方向。光學(數(shù)字)分類是另一種流行的應(yīng)用,其中圖像識別已被用于分離不同等級的產(chǎn)品(例如水果),并從生產(chǎn)線上去除異物/缺陷。圖像識別在農(nóng)業(yè)中有許多用途,如自動灌溉,病蟲害防治,農(nóng)作物自主選擇收獲和作物健康。圖像識別的最新進展將極大地影響所有的商業(yè)用途。

4.3 檢測事件

圖像識別在視覺監(jiān)控和安全方面有很多應(yīng)用。視頻圖像的高效處理提供了豐富的信息來識別和分類感興趣的事件。未來,圖像識別相機(智能相機)可以取代多種傳感器類型。例如,智能攝像機可以代替運動檢測的紅外線傳感器和用于門關(guān)閉/打開狀態(tài)監(jiān)測的磁性傳感器。對于一些重要的物聯(lián)網(wǎng)(IoT)應(yīng)用,支持圖像識別的攝像頭只需要傳送從視頻中提取的有趣事件并將其傳送給中央服務(wù)器(或云)。智能攝像機可以在事件前后的預(yù)設(shè)時間段內(nèi)提取完整的視頻作為證據(jù),而不是連續(xù)的視頻流。這將有效利用存儲和帶寬。隨著算法效率的提高和處理能力的提高,許多圖像識別功能可以嵌入到相機中。

圖像識別技術(shù)可以用來計算物體,如汽車或圖像中的人物。這種能力可以用于交通和人群管理。這樣的信息對于檢測諸如交通堵塞或特定位置(例如商店)內(nèi)部/外部的人數(shù)的相關(guān)事件是很有價值的。

人臉識別有助于安全和監(jiān)視應(yīng)用程序識別不良行為者以提供訪問權(quán)限。另外一個例子,人臉識別在進店時識別忠實有價值的顧客,提醒店員進行特別的服務(wù)。

4.4 人機交互

研究人員和軟件公司一直對提高人機交互性非常感興趣。結(jié)合近年來的語音識別和NLP突破(Alexa,Cortana,Siri等)(用到RNN),圖像識別(特定手勢識別,人臉識別和眼睛/頭部/手部跟蹤)可以重塑我們交流的方式與我們的電腦,設(shè)備,汽車和電器。圖像識別與虛擬和增強現(xiàn)實的進步相結(jié)合,將繼續(xù)為游戲產(chǎn)業(yè)帶來革命性的變化。

4.5 對物體和場景建模

圖像識別最重要的應(yīng)用之一將是健康行業(yè)的醫(yī)療和生物醫(yī)學圖像分析。傳統(tǒng)上,癌癥和心臟病等疾病的診斷依賴于X射線檢查和掃描,發(fā)現(xiàn)這些問題的早期預(yù)警信號。圖像識別不僅可以幫助醫(yī)生在這些情況下發(fā)現(xiàn)問題,而且還可以給予大量不同的例子來訓練,有助于醫(yī)生的診斷。與此相比,Google的圖片搜索和Facebook的面部識別可能看起來更簡單。在中國這樣的一些國家,肺癌每年要奪去幾千人的生命,主要是由于空氣污染嚴重。由于缺乏合格的??漆t(yī)生,醫(yī)生需要檢查更多的掃描信息,造成巨大的負擔,導致錯誤和誤診。基于圖像識別的系統(tǒng)已被廣泛用于天文學和為外層空間建造的應(yīng)用,用于分類捕獲的天文圖像中的恒星和星系。航空攝影是最近軍事、天氣、研究和商業(yè)用途的圖像識別技術(shù)的又一受益者。

4.6 導航

自主車輛和移動機器人一直是軍方極大的興趣。配備有先進圖像識別能力的智能移動機器人具有許多商業(yè)(例如服務(wù)業(yè))和個人用途。最先進的圖像識別最新的應(yīng)用是協(xié)助自動駕駛汽車和汽車駕駛員。自主車輛依靠數(shù)十種算法來處理來自各種傳感器和相機的數(shù)據(jù),以使其周圍的導航有意義。圖像識別方面的最新進展已經(jīng)使這一領(lǐng)域發(fā)生了革命性的變化,因此在未來的十年內(nèi)它將成為一種真正的可能。

4.7 營銷,銷售,客戶,經(jīng)驗和廣告

非結(jié)構(gòu)化的文字和圖像對話不僅簡單地改變我們彼此溝通的方式,而且也在改變品牌/供應(yīng)商與消費者的溝通方式。當從對話中發(fā)現(xiàn)有價值的見解并針對合適的顧客時,文本分析只是故事的一半。在文本和其他信息(例如位置)的上下文中理解圖像/視頻的內(nèi)容是故事的另一半,并且可以在客戶服務(wù)和銷售/營銷中帶來巨大的商業(yè)價值。

從圖像中提取突出的部分,例如品牌的標識,從社交共享圖片中提取對于廣告和營銷也非常重要。人們可以拍攝感興趣的產(chǎn)品(例如藥品,鞋子,電子設(shè)備等)的照片,并將其作為圖片提交給電子商務(wù)網(wǎng)站進行訂購或價格檢查。圖像識別功能可以理解任何標識、產(chǎn)品和產(chǎn)品類別上的印刷文本,理想情況下可以找到確切的產(chǎn)品匹配或至少一個近似匹配。這樣就可以訂購產(chǎn)品,查看價格,了解更多信息和/或閱讀其評論,只需通過移動設(shè)備上拍攝的圖像以及此人最感興趣的時刻。

4.8 弱AI與強AI

還有許多其他應(yīng)用程序直接從圖像識別的最新進展中獲益,包括可以幫助視障人士簡化垃圾運輸?shù)南到y(tǒng)。隨著語音和圖像識別以及人工智能總體上取得的重大進展,我們可以構(gòu)建更智能的軟件和機器。但是,它們遠離我們所說的人類智能。目前的AI被稱為窄AI或弱AI。狹窄的人工智能只是我們迄今為止取得的人工智能的一種形式。根據(jù)定義,狹義人工智能擅長執(zhí)行一項任務(wù),如下棋中的“走子”、推薦購買產(chǎn)品、做出預(yù)測(欺詐,銷售等),并提供天氣預(yù)報。圖像識別、語音識別、自動駕駛汽車(少數(shù)幾個狹窄的人工智能的良好結(jié)合)、翻譯系統(tǒng)和自然語言處理仍然是狹窄的人工智能。語音和圖像識別方面的最新進展是狹窄的人工智能,即使它們看起來像突破。人類的AI或強大的AI是模仿人類先進理解和推理的AI類型。強大的AI是一直難以捉摸的。


該書來自于 Rsystems INC. 的 《 Image Recognition: Revolution and Applications 》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Be free to be you, not frozen and shielded in a complex l...
    走走停停看看想想閱讀 371評論 0 0
  • 你會覺得累,那是因為你沒有把時間用來努力,讓自己充實起來,你把太多的時間用來念想,用來思考,卻沒有做出真正的努力,...
    牙尖嘴利的貓閱讀 170評論 0 0
  • 一直是一個腦洞大開的人,現(xiàn)實生活中循規(guī)蹈矩,謹慎拘謹,真實的自己單純、魯莽、執(zhí)著(難聽點就是鉆牛角尖),一個多月前...
    清心沐楓閱讀 237評論 0 0
  • (Ctrl+F)打開[查找]對話框 點擊[Mark]選項卡(如圖): ▲選中[標記所在行] ▲其他選項請自己決定 ...
    quan575閱讀 23,568評論 1 7

友情鏈接更多精彩內(nèi)容