應(yīng)用場(chǎng)景

人類嚴(yán)重依賴五官來(lái)解釋我們周圍的世界。 雖然五官都很重要,但我們?cè)陂喿x,駕駛或烹飪等大多數(shù)日常工作中都非常依賴視力。視覺(jué)是如此重要,它自然也是人類想要在機(jī)器中重建的東西之一。
自動(dòng)駕駛能減少人為錯(cuò)誤,可以不知疲倦地工作24 * 7運(yùn)作。 計(jì)算機(jī)視覺(jué)是跨學(xué)科的科學(xué)領(lǐng)域,用計(jì)算機(jī)處理圖像和視頻,并以與人類思維相同的方式提取細(xì)節(jié)。
在過(guò)去的十年中,計(jì)算機(jī)視覺(jué)研究一直處于快速發(fā)展階段,盡管沒(méi)有機(jī)器能夠模仿人類的大腦,但計(jì)算機(jī)視覺(jué)已經(jīng)幫助我們?nèi)〉昧艘恍┓欠驳某晒?具有強(qiáng)大的圖像模式識(shí)別能力的人工神經(jīng)網(wǎng)絡(luò)廣泛用于計(jì)算機(jī)視覺(jué)算法中,因?yàn)榕c傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,神經(jīng)網(wǎng)絡(luò)提供了更好的精度。
真實(shí)世界的應(yīng)用
在現(xiàn)代,計(jì)算機(jī)視覺(jué)已經(jīng)介入領(lǐng)域,僅減少人力,還為我們提供了解決方案,而這些任務(wù)永遠(yuǎn)無(wú)法通過(guò)人類視覺(jué)的限制來(lái)解決。
醫(yī)療

計(jì)算機(jī)視覺(jué)廣泛用于疾病的診斷,比如處理X射線,MRI和其他醫(yī)學(xué)圖像等,并且已經(jīng)證明在精確度方面與常規(guī)人類醫(yī)生一樣有效。 比如肺炎,腦腫瘤,糖尿病,帕金森病,乳腺癌等。
借助最先進(jìn)的圖像處理技術(shù)和計(jì)算機(jī)視覺(jué),可以對(duì)任何疾病進(jìn)行早期診斷,從而壓縮它們發(fā)生的可能性或允許在疾病的早期階段進(jìn)行治療。
計(jì)算機(jī)視覺(jué)還幫助研究人員監(jiān)測(cè)患者對(duì)其處方治療的依賴性,從而減少臨床試驗(yàn)中的損耗。 計(jì)算機(jī)視覺(jué)不僅有助于診斷,還通過(guò)分析對(duì)組織的損傷和監(jiān)測(cè)患者的失血在手術(shù)中起作用。
汽車

自動(dòng)駕駛在很大程度上依賴于計(jì)算機(jī)視覺(jué),作為理解駕駛環(huán)境的手段,包括探測(cè)障礙物,行人,車道和可能的碰撞路徑。
計(jì)算機(jī)視覺(jué)現(xiàn)在也用于輔助駕駛。 它監(jiān)控駕駛員的正確行為和駕駛模式,以減少因疏忽造成的事故發(fā)生的可能性。 包括檢查他是不是輕率駕駛,酒精或毒品的影響,以及疲勞駕駛。
計(jì)算機(jī)視覺(jué)還是在汽車的自動(dòng)化生產(chǎn)中起作用,比如拒絕裝配線上的有缺陷的部件。
安全和監(jiān)督

如今,地鐵站,道路,學(xué)校醫(yī)院等都有監(jiān)控,計(jì)算機(jī)視覺(jué)可自動(dòng)對(duì)視頻進(jìn)行分析。它能夠檢測(cè)諸如暴力,盜竊,非法侵入和人臉識(shí)別等,它還可以用于在機(jī)場(chǎng)和火車站等擁擠區(qū)域找到罪犯。
天文學(xué)

我們所有關(guān)于宇宙的知識(shí)都源于光子的測(cè)量,這些光子主要是圖像,因?yàn)槲覀兊挠钪媸侨绱司薮?,它收集的?shù)據(jù)也很大,手動(dòng)研究這些數(shù)據(jù)是不可能的。通過(guò)使用計(jì)算機(jī)視覺(jué),我們可以以更快的速度研究這些數(shù)據(jù),到目前為止計(jì)算機(jī)視覺(jué)用于發(fā)現(xiàn)新的行星和天體,這包括系外行星成像,恒星和星系分類等應(yīng)用。
農(nóng)業(yè)

在農(nóng)業(yè)中,計(jì)算機(jī)視覺(jué)用于發(fā)現(xiàn)正在使用的種子是否健康。 使用高光譜或多光譜傳感器,還可以確定作物的健康狀況。 它還可以幫助確定土壤肥沃,水體存在的區(qū)域,從而確定哪些區(qū)域適合農(nóng)業(yè)。
計(jì)算機(jī)視覺(jué)還使機(jī)器人能夠執(zhí)行收獲,種植,除草等過(guò)程。 依賴機(jī)器視覺(jué)的自主式拖拉機(jī)用于減輕對(duì)農(nóng)民的壓力。 計(jì)算機(jī)視覺(jué)還可用于識(shí)別牲畜并監(jiān)測(cè)其在其一生中的生長(zhǎng)情況,以提供有關(guān)收獲進(jìn)展的重要信息。
工業(yè)

在工業(yè)中,計(jì)算機(jī)視覺(jué)用于裝配線,用于計(jì)數(shù)批次,檢測(cè)損壞的部件,檢查成品,以發(fā)現(xiàn)使用人類視覺(jué)無(wú)法識(shí)別的產(chǎn)品中的微觀級(jí)別缺陷并提高工廠的安全性環(huán)境。 在制造任務(wù)中,讀取條形碼是必不可少的,因?yàn)樗鼈優(yōu)楫a(chǎn)品提供了獨(dú)特的識(shí)別,在一天內(nèi)讀取數(shù)千個(gè)條形碼對(duì)人類來(lái)說(shuō)不是一件容易的事,但使用計(jì)算機(jī)視覺(jué)可以在幾分鐘內(nèi)輕松完成。
衛(wèi)星圖像

計(jì)算機(jī)視覺(jué)應(yīng)用于衛(wèi)星圖像,以檢測(cè)洪水,海嘯,颶風(fēng)和山體滑坡等自然災(zāi)害。 衛(wèi)星圖像也用于分析重點(diǎn)區(qū)域的污染和空氣質(zhì)量指數(shù)。 它可用于檢測(cè)內(nèi)陸的各種材料,最近在采礦業(yè)中使用計(jì)算機(jī)視覺(jué),已經(jīng)開(kāi)始探測(cè)具有很高的區(qū)域原油或礦物的可能性。
算法
卷積神經(jīng)網(wǎng)絡(luò)(CNN)
大多數(shù)計(jì)算機(jī)視覺(jué)任務(wù)都圍繞著CNN架構(gòu),因?yàn)榇蠖鄶?shù)問(wèn)題的基礎(chǔ)是將圖像分類為已知標(biāo)簽。 算法用于物體檢測(cè),如 SSD和 YOLO是圍繞CNN構(gòu)建的。

人工神經(jīng)網(wǎng)絡(luò)對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)算法不可能完成的任務(wù)非常有用,但是在處理具有完全連接的隱藏層的圖像的情況下,很長(zhǎng)時(shí)間才能訓(xùn)練,因?yàn)镃NN用于首先減小圖像的大小使用卷積層和pooling層,然后將這些減少的數(shù)據(jù)饋送到完全連接的層。 CNN不僅用于計(jì)算機(jī)視覺(jué),還用于自然語(yǔ)言處理中的文本分類。
我們來(lái)談?wù)凜NN的層次。
參考資料
- 討論qq群630011153 144081101
- 本文最新版本地址
- 本文涉及的python測(cè)試開(kāi)發(fā)庫(kù) 謝謝點(diǎn)贊!
- 本文相關(guān)海量書籍下載
- 2018最佳人工智能機(jī)器學(xué)習(xí)工具書及下載(持續(xù)更新)
卷積層

為了執(zhí)行卷積運(yùn)算,使用可以指定大小的濾波器(較小的矩陣),該濾波器在整個(gè)圖像矩陣上移動(dòng)。濾波器的任務(wù)是將其值乘以原始像素值。 所有這些乘法都是概括的。 最后得到一個(gè)數(shù)字。 它進(jìn)一步向右移動(dòng)n個(gè)單位(可以變化)執(zhí)行類似的操作。 在將濾波器穿過(guò)所有位置之后,獲得矩陣,但是小于輸入矩陣。
非線性層
它在每個(gè)卷積層之后添加。 它使用激活功能,為數(shù)據(jù)帶來(lái)非線性。 非線性意味著輸出的變化與輸入的變化不成比例,我們要求這種非線性就像網(wǎng)絡(luò)是線性的一樣,添加多個(gè)層沒(méi)有意義(多個(gè)線性層相當(dāng)于單個(gè)層) 。 通過(guò)增加非線性,我們可以制作能夠在圖像中找到新模式的復(fù)雜網(wǎng)絡(luò)。 激活函數(shù)可以是ReLu,Tanh或任何其他非線性激活函數(shù)。 閱讀更多
Pooling層

Pooling層用于進(jìn)一步縮小矩陣的尺寸。 最常見(jiàn)的形式是具有2×2大小的過(guò)濾器的Pooling層,在輸入中的每個(gè)深度切片處沿著寬度和高度施加2個(gè)下行樣本的步幅,丟棄75%的激活。 Pooling層通常用于通過(guò)使用Max pooling函數(shù)來(lái)選擇最重要的像素,Max pooling函數(shù)僅選擇濾波器中存在的最高值像素,這減少了訓(xùn)練所需的計(jì)算量,因此顯著減少了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所花費(fèi)的時(shí)間。
完全連接的圖層

與multi-layer perceptron neural network (MLP)相同,唯一的區(qū)別是MLP的輸入層從CNN的前面的層中獲取輸入。
基于CNN的架構(gòu)
許多基于CNN的架構(gòu)已被用于最大化圖像分類的性能。 這些架構(gòu)是著名的架構(gòu),討論如下:
AlexNet(2012)
AlexNet 由SuperVision小組設(shè)計(jì),由Alex Krizhevsky,Geoffrey Hinton和Ilya Sutskever組成。 它是2012年ImageNet LSVRC-2012競(jìng)賽的獲勝者,該競(jìng)賽是專注于圖像分類的年度競(jìng)賽,錯(cuò)誤率為15.3%。AlexNet使用Relu(Rectified linear unit)代替tanh激活來(lái)增加非線性,從而將速度提高6倍,同時(shí)提高精度。它還使用了dropout而不是正則化來(lái)處理過(guò)度擬。AlexNet的另一個(gè)特性是它有重疊池來(lái)減少網(wǎng)絡(luò)的大小。 它將前1和前5錯(cuò)誤率分別降低了0.4%和0.3%。

AlexNet有5個(gè)卷積層和3個(gè)完全連接的層,在每個(gè)卷積層和完全連接的層之后存在的非線性層中,使用Relu激活函數(shù)。 僅在第一個(gè)和第二個(gè)完全連接的層之前應(yīng)用Dropout。 該網(wǎng)絡(luò)擁有6230萬(wàn)個(gè)參數(shù),并且在前向傳輸中需要11億個(gè)計(jì)算單元。
在AlexNet的論文中,規(guī)定網(wǎng)絡(luò)需要在五到六天內(nèi)完成90個(gè)時(shí)期才能在兩個(gè)GTX 580 GPU上進(jìn)行訓(xùn)練。使用學(xué)習(xí)率為0.01的隨機(jī)梯度下降,使用動(dòng)量0.9和權(quán)重衰減0.0005。 一旦準(zhǔn)確度達(dá)到高峰,學(xué)習(xí)率就會(huì)除以10。 在訓(xùn)練過(guò)程中,學(xué)習(xí)率降低了3倍。
GoogLeNet/Inception(2014)

GoogLeNet 是 ILSVRC 2014的贏家,它實(shí)現(xiàn)了前5個(gè)錯(cuò)誤率6.67%,他使用了受LeNet啟發(fā)的CNN。它的網(wǎng)絡(luò)中間包含1×1卷積,全局平均池用于網(wǎng)絡(luò)的末端而不是使用完全連接的層。 它還使用了Inception模塊,對(duì)于相同的輸入和堆疊所有輸出具有不同尺寸/類型的卷積。 它還使用批量標(biāo)準(zhǔn)化,圖像失真和RMSprop。 在GoogLenet中,使用1×1卷積作為降維模塊來(lái)減少計(jì)算,通過(guò)減少計(jì)算瓶頸,可以增加深度和寬度。 GoogLenet的架構(gòu)由22層深的CNN組成,但參數(shù)數(shù)量從6000萬(wàn)(AlexNet)減少到400萬(wàn)。
VGGNet(2014)

VGGNet是由牛津大學(xué)的VGG(Visual Geometry Group)發(fā)明的,雖然VGGNet是ILSVRC 2014在分類任務(wù)中的亞軍,它仍然顯示出對(duì)以前網(wǎng)絡(luò)的重大改進(jìn)。 VGGNet由16個(gè)卷積層組成,架構(gòu)非常統(tǒng)一,因此非常吸引人。 與AlexNet類似,只有3×3個(gè)卷積,但有很多過(guò)濾器。 它主要用于從圖像中提取特征。 VGG-16用作對(duì)象檢測(cè)算法SSD的基礎(chǔ),沒(méi)有完全連接的層。
RESNET(2015年)

Residual Neural Network (ResNet)贏得了2015年的ILSVRC。它實(shí)現(xiàn)了前5個(gè)錯(cuò)誤率3.57%,超過(guò)了該數(shù)據(jù)集的人類級(jí)別表現(xiàn)。 它引入了由152層skip 連接(gated units or gated recurrent units) 組成的架構(gòu),并具有大批量標(biāo)準(zhǔn)化功能。 ResNet的整個(gè)想法是為了解決漸變漸漸消失的問(wèn)題。 通過(guò)保留梯度,消失梯度是在具有大量層的網(wǎng)絡(luò)中發(fā)生的問(wèn)題,因?yàn)榈谝粚拥臋?quán)重?zé)o法通過(guò)誤差梯度的反向傳播正確更新( (the chain rule multiplies error gradient values lower than one and then, when the gradient error comes to the first layers, its value goes to zero)。
計(jì)算機(jī)視覺(jué)的挑戰(zhàn)
計(jì)算機(jī)視覺(jué)在很大程度上取決于圖像質(zhì)量,使用相機(jī)類型,拍攝圖像/視頻的時(shí)間,以及相機(jī)是否穩(wěn)定等因素。
面部識(shí)別和視頻分析等應(yīng)用面臨著巨大的問(wèn)題,因?yàn)镃CTV的質(zhì)量非常低,不能用來(lái)區(qū)分人。 在物體檢測(cè)的情況下,物體的大小在模型的準(zhǔn)確性中起重要作用,不易檢測(cè)小物體,即使檢測(cè)到它們,檢測(cè)也不穩(wěn)定。 它還受到物體變形,圖像背景和遮擋程度的影響。
計(jì)算機(jī)視覺(jué)障礙的另一個(gè)因素是模型的知識(shí),如果訓(xùn)練集中沒(méi)有的對(duì)象或圖像,模型將顯示不正確的結(jié)果。 例如,武器檢測(cè)系統(tǒng)只接受過(guò)槍支和刀具的訓(xùn)練,部署在火車站恐怖分子帶來(lái)的炸彈檢測(cè)不到,從而危及生命。