深度學(xué)習(xí)(九):現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)

在之前已經(jīng)介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本原理,這一節(jié)主要介紹一下現(xiàn)代的現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)模型,包括

  • AlexNet。它是第一個(gè)在大規(guī)模視覺競賽中擊敗傳統(tǒng)計(jì)算機(jī)視覺模型的大型神經(jīng)網(wǎng)絡(luò);
  • 使用重復(fù)塊的網(wǎng)絡(luò)(VGG)。它利用許多重復(fù)的神經(jīng)網(wǎng)絡(luò)塊;
  • 網(wǎng)絡(luò)中的網(wǎng)絡(luò)(NiN)。它重復(fù)使用由卷積層和1*1卷積層(用來代替全連接層)來構(gòu)建深層網(wǎng)絡(luò);
  • 含并行連結(jié)的網(wǎng)絡(luò)(GoogLeNet)。它使用并行連結(jié)的網(wǎng)絡(luò),通過不同窗口大小的卷積層和最大匯聚層來并行抽取信息;
  • 殘差網(wǎng)絡(luò)(ResNet)。它通過殘差塊構(gòu)建跨層的數(shù)據(jù)通道,是計(jì)算機(jī)視覺中最流行的體系架構(gòu);

一,深度卷積神經(jīng)網(wǎng)絡(luò)(AlexNet)

1.1 學(xué)習(xí)表征

對于如何提高模型的精度,歷代研究人員都提出了非常多的想法,例如提出更好的算法,也有人說改善特征的提取,如AlexNet,在網(wǎng)絡(luò)的最底層,模型學(xué)習(xí)到了一些類似于傳統(tǒng)濾波器的特征抽取器,如下


AlexNet的更高層建立在這些底層表示的基礎(chǔ)上,以表示更大的特征,如眼睛、鼻子、草葉等等。而更高的層可以檢測整個(gè)物體,如人、飛機(jī)、狗或飛盤。最終的隱藏神經(jīng)元可以學(xué)習(xí)圖像的綜合表示,從而使屬于不同類別的數(shù)據(jù)易于區(qū)分。

1.2 AlexNet

AlexNet首次證明了學(xué)習(xí)到的特征可以超越手工設(shè)計(jì)的特征,AlexNet和LeNet的架構(gòu)非常相似,如下圖所示

AlexNet由八層組成:五個(gè)卷積層、兩個(gè)全連接隱藏層和一個(gè)全連接輸出層;使用ReLU而不是sigmoid作為其激活函數(shù)。

二,使用塊的網(wǎng)絡(luò)(VGG)

神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)逐漸變得更加抽象,研究人員開始從單個(gè)神經(jīng)元的角度思考問題,發(fā)展到整個(gè)層,現(xiàn)在又轉(zhuǎn)向塊,重復(fù)層的模式。使用塊的想法首先出現(xiàn)VGG網(wǎng)絡(luò)。

VGG由一系列卷積層組成,后面再加上用于空間下采樣的最大匯聚層。與AlexNet、LeNet一樣,VGG網(wǎng)絡(luò)可以分為兩部分:第一部分主要由卷積層和匯聚層組成,第二部分由全連接層組成。

中間的都是VGG塊。其中有超參數(shù)變量conv_arch。該變量指定了每個(gè)VGG塊里卷積層個(gè)數(shù)和輸出通道數(shù)。

也就是說使用可復(fù)用的卷積塊構(gòu)造網(wǎng)絡(luò),不同的VGG模型可通過每個(gè)塊中卷積層數(shù)量和輸出通道數(shù)量的差異來定義

三,網(wǎng)絡(luò)中的網(wǎng)絡(luò)(NiN)

LeNet、AlexNet和VGG都有一個(gè)共同的設(shè)計(jì)模式:通過一系列的卷積層與匯聚層來提取空間結(jié)構(gòu)特征;然后通過全連接層對特征的表征進(jìn)行處理。
AlexNet和VGG對LeNet的改進(jìn)主要在于如何擴(kuò)大和加深這兩個(gè)模塊

網(wǎng)絡(luò)中的網(wǎng)絡(luò)(NiN)在每個(gè)像素的通道上分別使用多層感知機(jī)

NiN塊以一個(gè)普通卷積層開始,后面是兩個(gè)1*1的卷積層。這兩個(gè)1*1卷積層充當(dāng)帶有ReLU激活函數(shù)的逐像素全連接層。

NiN去除了容易造成過擬合的全連接層,將它們替換為全局平均匯聚層。該匯聚層通道數(shù)量為所需的輸出數(shù)量。移除全連接層可減少過擬合,同時(shí)顯著減少NiN的參數(shù)。

四,含并行連結(jié)的網(wǎng)(GoogLeNet)

GoogLeNet吸收了NiN中串聯(lián)網(wǎng)絡(luò)的思想,并解決了什么樣大小的卷積核最合適的問題。
在GoogLeNet中,基本的卷積塊被稱為Inception塊

這四條路徑都使用合適的填充來使輸入與輸出的高和寬一致,最后我們將每條線路的輸出在通道維度上連結(jié),并構(gòu)成Inception塊的輸出。

它通過不同窗口形狀的卷積層和最大匯聚層來并行抽取信息,并使用1*1卷積層減少每像素級別上的通道維數(shù)從而降低模型復(fù)雜度。

GoogLeNet模型如下

GoogLeNet一共使用9個(gè)Inception塊和全局平均匯聚層的堆疊來生成其估計(jì)值

五,殘差網(wǎng)絡(luò)(ResNet)

隨著我們設(shè)計(jì)越來越深的網(wǎng)絡(luò),理解“新添加的層如何提升神經(jīng)網(wǎng)絡(luò)的性能”變得至關(guān)重要。
殘差網(wǎng)絡(luò)的核心思想是:每個(gè)附加層都應(yīng)該更容易地包含原始函數(shù)作為其元素之一。


在殘差塊中,輸入可通過跨層數(shù)據(jù)線路更快地向前傳播。

利用殘差塊(residual blocks)可以訓(xùn)練出一個(gè)有效的深層神經(jīng)網(wǎng)絡(luò):輸入可以通過層間的殘余連接更快地向前傳播

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容