姓名:樂仁華 學號:16140220023
轉載自:http://m.blog.csdn.net/ccj_ok/article/details/74157414,有刪改
【嵌牛導讀】:本文主要介紹一些常見的基于深度學習的場景分類
【嵌牛鼻子】:深度學習,場景分類
【嵌牛提問】:基于深度學習的常見分類算法有哪些?
【嵌牛正文】:
目前出現(xiàn)的相對流行的場景分類方法主要有以下三類:
(1) 基于對象的場景分類:
這種分類方法以對象為識別單位,根據(jù)場景中出現(xiàn)的特定對象來區(qū)分不同的場景;
基于視覺的場景分類方法大部分都是以對象為單位的,也就是說,通過識別一些有
代表性的對象來確定自然界的位置。典型的基于對象的場景分類方法有以下的中間步驟:
特征提取、重組和對象識別。
缺點:底層的錯誤會隨著處理的深入而被放大。例如,上位層中小對象的識別往往會受到下屬層
相機傳感器的原始噪聲或者光照變化條件的影響。尤其是在寬敞的環(huán)境下,目標往往會非常分散,
這種方法的應用也受到了限制。需要指出的是,該方法需要選擇特定環(huán)境中的一些固定對
象,一般使用深度網(wǎng)絡提取對象特征,并進行分類。
算法:AlexNet
除了傳統(tǒng)的卷積層、pooling層、全連接層。AlexNet加入了
(1)非線性激活函數(shù):ReLU;
(2)防止過擬合的方法:Dropout,Dataaugmentation。同時,使用多個GPU,LRN歸一化層。
算法:VGG-Net
不同于AlexNet的地方是:VGG-Net使用更多的層,通常有16-19層,而AlexNet只有8層。
同時,VGG-Net的所有 convolutional layer 使用同樣大小的 convolutional filter,大小為 3 x 3。
算法:GoogLeNet。
提出的Inception結構是主要的創(chuàng)新點,這是(Network In Network)的結構,即原來的結點也是一個網(wǎng)絡。
在單層卷積層上使用不同尺度的卷積核就可以提取不同尺寸的特征,單層的特征提取能力增強了。其使用之后整個網(wǎng)絡結構的寬度和深度都可擴大,能夠帶來2-3倍的性能提升。
算法:ResNet。
ResNet引入了殘差網(wǎng)絡結構(residual network),通過在輸出與輸入之間引入一個shortcut connection,而不是簡單的堆疊網(wǎng)絡,這樣可以解決網(wǎng)絡由于很深出現(xiàn)梯度消失的問題,從而可可以把網(wǎng)絡做的很深。這種方法目前也是業(yè)界最高水準了。
(2) 基于區(qū)域的場景分類;
首先通過目標候選候選區(qū)域選擇算法,生成一系列候選目標區(qū)域,
然后通過深度神經(jīng)網(wǎng)絡提取候選目標區(qū)域特征,并用這些特征進行分類。
算法:RCNN
技術路線:selective search + CNN + SVMs
算法:Fast-R-CNN
步驟:輸入一幅圖像和Selective Search方法生成的一系列Proposals,通過一系列卷積層
和Pooling層生成feature map,然后用RoI(region ofineterst)層處理最后一個卷積層
得到的feature map為每一個proposal生成一個定長的特征向量roi_pool5。
RoI層的輸出roi_pool5接著輸入到全連接層, 產(chǎn)生最終用于多任務學習的特征并用于
計算多任務Loss。
全連接輸出包括兩個分支:
1.SoftMax Loss:計算K+1類的分類Loss函數(shù),其中K表示K個目標類別。
2.RegressionLoss:即K+1的分類結果相應的Proposal的Bounding Box四個角點坐標值。
最終將所有結果通過非極大抑制處理產(chǎn)生最終的目標檢測和識別結果。
算法:Faster-R-CNN:
Faster-R-CNN算法由兩大模塊組成:1.PRN候選框提取模塊 2.Fast R-CNN檢測模塊。
其中,RPN是全卷積神經(jīng)網(wǎng)絡,通過共享卷積層特征可以實現(xiàn)proposal的提?。?br>
FastR-CNN基于RPN提取的proposal檢測并識別proposal中的目標。
(3) 基于上下文的場景分類:
這類方法不同于前面兩種算法,而將場景圖像看作全局對象而非圖像中的某一對象或細節(jié),
這樣可以降低局部噪聲對場景分類的影響。
將輸入圖片作為一個特征,并提取可以概括圖像統(tǒng)計或語義的低維特征。該類方法的目的
即為提高場景分類的魯棒性。因為自然圖片中很容易摻雜一些隨機噪聲,這類噪聲會對
局部處理造成災難性的影響,而對于全局圖像卻可以通過平均數(shù)來降低這種影響。
基于上下文的方法,通過識別全局對象,而非場景中的小對象集合或者準確的區(qū)域邊界,
因此不需要處理小的孤立區(qū)域的噪聲和低級圖片的變化,其解決了分割和目標識別分類方法遇到的問題。
算法:基于Gist的場景分類
步驟:通過 Gist 特征提取場景圖像的全局特征。Gist 特征是一種生物啟發(fā)式特征,
該特征模擬人的視覺,形成對外部世界的一種空間表
示,捕獲圖像中的上下文信息。Gist 特征通過多尺度
多方向 Gabor 濾波器組對場景圖像進行濾波,將濾波后
的圖像劃分為 4 × 4 的網(wǎng)格,然后各個網(wǎng)格采用離散傅
里葉變換和窗口傅里葉變換提取圖像的全局特征信息。
用CNN 進一步學習更深層次的特征,并在 CNN 最高層進行場景分類