Lecture 9 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)

本課重點(diǎn):

  • 經(jīng)典CNN架構(gòu)

    • AlexNet
    • VGG
    • GoogLeNet
    • ResNet
  • 其他架構(gòu)

1 經(jīng)典架構(gòu)

1.1 AlexNet

首先回顧一下在數(shù)字識(shí)別領(lǐng)域有巨大成功的LeNet-5,該網(wǎng)絡(luò)結(jié)構(gòu)為 [CONV-POOL-CONV-POOL-FC-FC]。卷積層使用5x5的卷積核,步長(zhǎng)為1;池化層使用2x2的區(qū)域,步長(zhǎng)為2;后面是全連接層。如下圖所示:

圖1 LeNet-5架構(gòu)

而2012年的AlexNet是第一個(gè)在ImageNet大賽上奪冠的大型CNN網(wǎng)絡(luò),它的結(jié)構(gòu)和LeNet-5很相似,只是層數(shù)變多了——[CONV1-MAX POOL1-NORM1-CONV2-MAX POOL2-NORM2-CONV3-CONV4-CONV5-Max POOL3-FC6-FC7-FC8],共有5個(gè)卷積層、3個(gè)池化層、2個(gè)歸一化層和三個(gè)全連接層。如下圖所示:

圖2 AlexNet架構(gòu)
  • 輸入:227x227x3的圖片;
  • CONV1:使用96個(gè)11x11大小的卷積核,步長(zhǎng)為4,由于(227-11)/4+1=55,所以輸出的尺寸為55x55x96,共有96x11x11x3個(gè)參數(shù);
  • POOL1:使用3x3的池化區(qū)域,步長(zhǎng)為2,由于(55-3)/2+1=27,所以輸出為27x27x96,沒有參數(shù);
  • NORM1:歸一化后仍然是27x27x96;
  • CONV2:使用256個(gè)5x5的卷積核,stride 1、pad 2 ,(27+2x2-5)+1=27,所以輸出為27x27x256;
  • POOL2:3x3 filters,stride 2 ,(27-3)/2+1=13,所以輸出為13x13x256;
  • NORM2:13x13x256;
  • CONV3: 384個(gè)3x3 filters,stride 1, pad 1,輸出 [13x13x384] ;
  • CONV4: 384個(gè)3x3 filters,stride 1, pad 1,輸出[13x13x384] ;
  • CONV5: 256個(gè)3x3 filters,stride 1, pad 1,輸出 [13x13x256];
  • POOL3: 3x3 filters,stride 2 輸出為[6x6x256];
  • FC6: 4096個(gè)神經(jīng)元,輸出為[4096];
  • FC7: 4096個(gè)神經(jīng)元,輸出為[4096];
  • FC8: 1000個(gè)神經(jīng)元,(class scores)輸出為[1000]。

之所以分成上下兩個(gè)部分,是因?yàn)楫?dāng)時(shí)的GPU容量太小,只能用兩個(gè)來完成。還有一些細(xì)節(jié)是:

  • 第一次使用ReLU函數(shù);
  • 使用歸一化層(現(xiàn)在不常用了) ;
  • 數(shù)據(jù)增強(qiáng);
  • dropout 0.5 ;
  • batch size 128;
  • SGD Momentum 0.9 ;
  • 學(xué)習(xí)率1e-2, 當(dāng)驗(yàn)證準(zhǔn)確率平穩(wěn)時(shí),手動(dòng)減少10;
  • L2權(quán)重衰減是5e-4
  • 7 CNN ensemble: 18.2% -> 15.4%

AlexNet奪得ImageNet大賽2012的冠軍時(shí),將正確率幾乎提高了10%,2013年的冠軍是ZFNet,和AlexNet使用相同的網(wǎng)絡(luò)架構(gòu),只是對(duì)超參數(shù)進(jìn)一步調(diào)優(yōu):

  • CONV1: 將 (11x11 stride 4) 改為 (7x7 stride 2) ;
  • CONV3,4,5: 不再使用384, 384, 256個(gè)濾波器,而是使用512, 1024, 512個(gè)。

這樣將錯(cuò)誤率從16.4%降低到11.7%

圖3 ImageNet大賽歷屆冠軍

14年的冠亞軍GoogLeNet和VGG分別有22層和19層,下面來分別介紹。

1.2 VGG

VGG相對(duì)于AlexNet使用更小的卷積核,層數(shù)也更深。VGG有16層和19層兩種。卷積核只使用3x3,步長(zhǎng)為1,pad為1;池化區(qū)域2x2,步長(zhǎng)為2。

圖4 VGG與AlexNet對(duì)比

那么為什么使用3x3的小卷積核呢?

  1. 多個(gè)卷積層堆疊時(shí),第一層的感受野是3x3,第二層的感受野是5x5(感受原圖像),這樣堆疊三層的有效感受野就變成7x7;
  2. 多個(gè)3x3的卷基層比一個(gè)大尺寸卷積核的卷積層有更多的非線性(更多層的非線性函數(shù)),使得判決函數(shù)更加具有判決性;
  3. 多個(gè)3x3的卷積層比一個(gè)大尺寸的卷積核有更少的參數(shù),假設(shè)卷積層的輸入和輸出的特征圖大小相同為C,那么三個(gè)3x3的卷積層參數(shù)個(gè)數(shù)3x(3x3xCxC)=27C2;一個(gè)7x7的卷積層參數(shù)為 7x7xCxC=49C2;所以可以把三個(gè)3x3的filter看成是一個(gè)7x7filter的分解(中間層有非線性的分解, 并且起到隱式正則化的作用)。

下面看一下VGG-16的參數(shù)和內(nèi)存使用情況:

圖5 VGG-16參數(shù)與內(nèi)存
  • 總內(nèi)存占用: 24M * 4 bytes,每張圖片約96MB,加上反向傳播需要乘以2;大多數(shù)內(nèi)存都用在了前面幾層卷積層;
  • 總參數(shù)個(gè)數(shù): 138M,大多都在全連接層,全連接層的第一層就有100多M。

VGG網(wǎng)絡(luò)的一些細(xì)節(jié)是:

  • 14年ImageNet大賽分類第二名,定位第一名;
  • 訓(xùn)練過程和AlexNet很接近;
  • 不使用局部響應(yīng)歸一化;
  • 有16層和19層兩種,19層效果稍微好一些,但是占用更多內(nèi)存,16層應(yīng)用的更廣泛;
  • 使用模型集成;
  • FC7的特征泛化非常好,可以直接用到其他任務(wù)中。

下面來看一下分類的第一名,GoogLeNet。

1.3 GoogLeNet

先說明GoogLeNet的一些細(xì)節(jié):

  • 網(wǎng)絡(luò)有22層,比VGG深一些;
  • 為了高效的計(jì)算,使用 “Inception” 模塊;
  • 不使用全連接層;
  • 只有500萬個(gè)參數(shù),比AlexNet少了12倍;
  • 14年分類的冠軍(6.7% top 5 error)

1.3.1 Inception Module

“Inception”模塊是一種設(shè)計(jì)的比較好的局域網(wǎng)拓?fù)浣Y(jié)構(gòu),然后將這些模塊堆疊在一起。

這種拓?fù)浣Y(jié)構(gòu)對(duì)來自前一層的輸入,并行應(yīng)用多種不同的濾波操作,比如1x1卷積、3x3卷積、5x5卷積和3x3池化。然后將所有濾波器的輸出在深度上串聯(lián)在一起。如下圖所示:

圖6 普通的Inception Module

但是這種結(jié)構(gòu)的一個(gè)問題是計(jì)算復(fù)雜度大大增加。比如考慮下面的網(wǎng)絡(luò)設(shè)置:

輸入為28x28x256,而串聯(lián)后的輸出為28x28x672。(假設(shè)每個(gè)濾波操作都通過零填充保持輸入尺寸)并且運(yùn)算花費(fèi)也非常高:

  • [1x1 conv, 128] 28x28x128x1x1x256次乘法運(yùn)算;
  • [3x3 conv, 192] 28x28x192x3x3x256次;
  • [5x5 conv, 96] 28x28x96x5x5x256次。
    總計(jì): 854M次乘法運(yùn)算。

由于池化操作會(huì)保持原輸入的深度,所以網(wǎng)絡(luò)的輸出一定會(huì)增加深度。解決辦法是在進(jìn)行卷積操作前添加一個(gè)“瓶頸層”,該層使用1x1卷積,目的是保留原輸入空間尺寸的同時(shí),減小深度,只要卷積核的數(shù)量小于原輸入的深度即可。

圖7 帶有深度減小的Inception Module(注:圖上紅色部分為“瓶頸層”)

使用這種結(jié)構(gòu),同樣的網(wǎng)絡(luò)參數(shù)設(shè)置下,的確會(huì)減少計(jì)算量:

最終得到的輸出為28x28x480。此時(shí)總運(yùn)算量為:

  • [1x1 conv, 64] 28x28x64x1x1x256
  • [1x1 conv, 64] 28x28x64x1x1x256
  • [1x1 conv, 128] 28x28x128x1x1x256
  • [3x3 conv, 192] 28x28x192x3x3x64
  • [5x5 conv, 96] 28x28x96x5x5x64
  • [1x1 conv, 64] 28x28x64x1x1x256
    總計(jì):358M。減少了一倍多。

1.3.2 完整結(jié)構(gòu)

Inception module堆疊成垂直結(jié)構(gòu),這里方便描述,將模型水平放置:

圖8 完整的GoogLeNet結(jié)構(gòu)
  • 藍(lán)色部分主干網(wǎng):
    Input - Conv 7x7+2(S) - MaxPool 3x3+2(S) - LocalRespNorm - Conv 1x1+1(V) - Conv 3x3+1(S) - LocalRespNorm - MaxPool 3x3+2(S)
    含參數(shù)的層只有3個(gè)卷積層;

  • 紅色部分Inception module堆疊:
    并行層只算一層,所以一個(gè)Inception module只有兩層,共有9個(gè)相同的模塊18層。

  • 綠色部分的輸出:
    移除昂貴的全連接層,只留一個(gè)分類用的FC。
    AveragePool 7x7+1(V) - FC - SoftmaxActivation - Output

所以含參數(shù)的層總計(jì)3+18+1 = 22層。此外,橙色部分的層不計(jì)入總層數(shù),這兩塊的結(jié)構(gòu)都是:AveragePool 5x5+3(V) - Conv 1x1+1(S) - FC - FC - SoftmaxActivation - Output?!霸撓鄬?duì)較淺的網(wǎng)絡(luò)在此分類任務(wù)上的強(qiáng)大表現(xiàn)表明,網(wǎng)絡(luò)中間層產(chǎn)生的特征應(yīng)該是非常有區(qū)別性的。 通過添加連接到這些中間層的輔助分類器,我們期望在分類器的較低階段中鼓勵(lì)區(qū)分,增加回傳的梯度信號(hào),并提供額外的正則化。 這些輔助分類器采用較小的卷積核,置于第三和第六個(gè)Inception module的輸出之上。 在訓(xùn)練期間,它們的損失會(huì)加到折扣權(quán)重的網(wǎng)絡(luò)總損失中(輔助分類的損失加權(quán)為0.3)。 在預(yù)測(cè)時(shí),這些輔助網(wǎng)絡(luò)被丟棄?!薄栽撐?/p>

1.4 ResNet

從2015年開始,網(wǎng)絡(luò)的層數(shù)爆發(fā)式的增長(zhǎng),15-17年的冠軍都是有152層,開始了“深度革命”!

ResNet是一種非常深的網(wǎng)絡(luò),使用了殘差連接。細(xì)節(jié)是:

  • 152層;
  • ILSVRC’15優(yōu)勝者(3.57% top 5 error);
  • 橫掃了所有ILSVRC’15 和COCO’15分類/檢測(cè)的競(jìng)賽!

表現(xiàn)這么好的ResNet僅僅是因?yàn)樯顔??答案是否定的,研究表明一個(gè)56層的卷積層堆疊網(wǎng)絡(luò)訓(xùn)練誤差和測(cè)試誤差都比一個(gè)20層的網(wǎng)絡(luò)要大,并且不是過擬合的原因,而是更深的網(wǎng)絡(luò)優(yōu)化更難。但是一個(gè)更深的模型至少能和一個(gè)較淺的模型表現(xiàn)一樣好,如果想把一個(gè)較淺的層變成較深的層,可以用下面的方式來構(gòu)建:將原來比較淺的層拷貝到較深的層中,然后添加一些等于本身的映射層?,F(xiàn)在較深的模型可以更好的學(xué)習(xí)。

1.4.1 核心思想

ResNet通過使用多個(gè)有參層來學(xué)習(xí)輸入與輸入輸出之間的殘差映射( residual mapping ),而非像一般CNN網(wǎng)絡(luò)(如AlexNet/VGG等)那樣使用有參層來直接學(xué)習(xí)輸入輸出之間的底層映射( underlying mapping)。

殘差學(xué)習(xí)(Residual Learning)

若將輸入設(shè)為X,將某一有參網(wǎng)絡(luò)層映射設(shè)為H,那么以X為輸入的該層的輸出將為H(X)。通常的CNN網(wǎng)絡(luò)會(huì)直接通過訓(xùn)練學(xué)習(xí)出參數(shù)函數(shù)H的表達(dá)式,從而直接得到 X 到 H(X) 的映射。而殘差學(xué)習(xí)則是致力于使用多個(gè)有參網(wǎng)絡(luò)層來學(xué)習(xí)輸入到輸入、輸出間的殘差(H(X) - X)的映射,即學(xué)習(xí) X -> (H(X) - X) ,然后加上X的自身映射(identity mapping)。也就是說網(wǎng)絡(luò)的輸出仍然是 H(X) - X + X = H(X),只是學(xué)習(xí)的只是 (H(X) - X),X部分直接是本身映射。

圖9 底層映射(左)與殘差學(xué)習(xí)單元(右)
自身映射(Identity Mapping)

殘差學(xué)習(xí)單元通過本身映射的引入在輸入、輸出之間建立了一條直接的關(guān)聯(lián)通道,從而使得強(qiáng)大的有參層集中精力學(xué)習(xí)輸入、輸出之間的殘差。一般我們用F(X, W_i)來表示殘差映射,那么殘差學(xué)習(xí)單元的輸出即為:Y = F(X, W_i) + X。當(dāng)輸入、輸出通道數(shù)相同時(shí),自然可以直接使用 X 進(jìn)行相加。而當(dāng)它們之間的通道數(shù)目不同時(shí),我們就需要考慮建立一種有效的自身映射函數(shù)從而可以使得處理后的輸入 X 與輸出 Y 的通道數(shù)目相同即Y = F(X, W_i) + W_sX。

當(dāng)X與Y通道數(shù)目不同時(shí),有兩種自身映射方式。一種是簡(jiǎn)單地將X相對(duì)Y缺失的通道直接補(bǔ)零從而使其能夠相對(duì)齊,另一種則是通過使用1x1的卷積來表示 Ws 映射從而使得最終輸入與輸出的通道一致。

實(shí)驗(yàn)表明使用一般意義上的有參層來直接學(xué)習(xí)殘差比直接學(xué)習(xí)輸入、輸出間映射要容易得多(收斂速度更快),也有效得多(可通過使用更多的層來達(dá)到更高的分類精度)。比如在極端情況下,如果自身映射是最優(yōu)的,那么將殘差設(shè)為零比通過使用一堆非線性層進(jìn)行自身映射更容易。

1.4.2 完整結(jié)構(gòu)

完整的網(wǎng)絡(luò)結(jié)構(gòu)如下:

  • 殘差塊堆疊;
  • 每個(gè)殘差塊有兩個(gè)3x3卷積層;
  • 周期性的使用兩倍的卷積核數(shù)量,降采樣通過設(shè)置步長(zhǎng)為2;
  • 在網(wǎng)絡(luò)開始處有7x7的卷積層和最大池化層(步長(zhǎng)2);
  • 在網(wǎng)絡(luò)的最后不使用全連接層 (只有一個(gè)用于1000個(gè)分類的FC);
  • 在最后一個(gè)卷積層后使用全局的平均池化;
  • 總共的深度有34、50、101或152。
圖10 ResNet完整結(jié)構(gòu)

對(duì)于ResNet-50+的網(wǎng)絡(luò),為提高計(jì)算效率,使用類似GoogLeNet的“瓶頸層”。像Inception模塊那樣通過使用1x1卷積來巧妙地縮減或擴(kuò)張?zhí)卣鲌D維度從而使得3x3 卷積的卷積核數(shù)目不受上一層輸入的影響,它的輸出也不會(huì)影響到下一層。不過它純是為了節(jié)省計(jì)算時(shí)間進(jìn)而縮小整個(gè)模型訓(xùn)練所需的時(shí)間而設(shè)計(jì)的,對(duì)最終的模型精度并無影響。

圖11 bottleneck模塊

1.4.3 網(wǎng)絡(luò)訓(xùn)練

ResNet的實(shí)際訓(xùn)練如下:

  • 每個(gè)CONV層后使用批量歸一化;
  • 權(quán)重使用He初始化;
  • 更新方式使用SGD + Momentum (0.9) ;
  • 學(xué)習(xí)率為0.1, 驗(yàn)證錯(cuò)誤率不變時(shí)除10 ;
  • Mini-batch size為256 ;
  • 權(quán)重衰減是1e-5 ;
  • 不使用dropout。

實(shí)際的訓(xùn)練效果為可以堆疊很多的層而不使準(zhǔn)確率下降:152在ImageNet上, 1202層在CIFAR上?,F(xiàn)在和預(yù)想中的一致,網(wǎng)絡(luò)越深,訓(xùn)練準(zhǔn)確率越高。橫掃了2015年所有的獎(jiǎng)項(xiàng),第一次超過人類的識(shí)別率。

圖12 ResNet的成績(jī)

1.5 幾種網(wǎng)絡(luò)的對(duì)比

下面左圖通過Top1準(zhǔn)確率來比較各種網(wǎng)絡(luò)的準(zhǔn)確性;右圖是不同網(wǎng)絡(luò)的運(yùn)算復(fù)雜度,橫軸為計(jì)算量,圓圈大小表示內(nèi)存占用。其中 Inception-v4是 Resnet + Inception。

圖13 各種網(wǎng)絡(luò)的準(zhǔn)確率與計(jì)算復(fù)雜度對(duì)比

圖中可以看出:

  • Inception-v4具有最高的準(zhǔn)確率;
  • VGG內(nèi)存占用最大,計(jì)算量最多;
  • GoogLeNet最高效,準(zhǔn)確率較高,運(yùn)算復(fù)雜度較??;
  • AlexNet計(jì)算量較小但內(nèi)存占用較大,準(zhǔn)確率也低;
  • ResNet準(zhǔn)確率較高,效率取決于模型。

還可以比較前向傳播時(shí)間和功率消耗:

圖14 各種網(wǎng)絡(luò)前向傳播時(shí)間和功率消耗與批量的關(guān)系

2 其他網(wǎng)絡(luò)架構(gòu)

2.1 Network in Network (NiN)

  • 在每個(gè)卷積層內(nèi)的Mlpconv層具有“Micronetwork”用于計(jì)算局部區(qū)域的更抽象的特征;
  • Micronetwork使用多層感知器(FC,即1x1卷積層)
  • GoogLeNet和ResNet“瓶頸”層的先驅(qū)
  • GoogLeNet的哲學(xué)靈感
圖15 NiN架構(gòu)

2.2 ResNet的改進(jìn)

  • Identity Mappings in Deep Residual Networks
    • 創(chuàng)造者自己改進(jìn)了ResNet塊設(shè)計(jì)
    • 創(chuàng)建更直接的路徑,以便在整個(gè)網(wǎng)絡(luò)中傳播信息(將激活函數(shù)移動(dòng)到殘差的映射路徑)
    • 提供更好的性能
  • Wide Residual Networks
    • 認(rèn)為殘差是重要因素,而不是深度
    • 使用更寬的殘差塊(F x k個(gè)濾波器代替每層中的F個(gè)濾波器)
    • 50層Wide ResNet優(yōu)于152層原始ResNet
    • 增加寬度而不是深度更具計(jì)算效率(可并行化)
  • ResNeXt
    • 也來自ResNet的創(chuàng)建者
    • 通過多個(gè)平行路徑增加殘差塊的寬度(“cardinality”)
    • 與Inception模塊相似的并行路徑
    • 單個(gè)分支“變窄”
  • Deep Networks with Stochastic Depth
    • 動(dòng)機(jī):在訓(xùn)練期間通過縮短網(wǎng)絡(luò)減少梯度消失和訓(xùn)練時(shí)間
    • 在每次訓(xùn)練過程中隨機(jī)丟棄一個(gè)層子集
    • 具有自身映射功能的旁路,丟棄的層權(quán)重為1,恒等映射
    • 在測(cè)試時(shí)使用完整的深度網(wǎng)絡(luò)
  • Network Ensembling(Fusion)
    • 多尺度集成 Inception、Inception-Resnet、Resnet、Wide Resnet模型
    • ILSVRC'16分類獲勝者
  • Squeeze-and-Excitation Networks (SENet)
    • 添加“特征重新校準(zhǔn)”模塊,該模塊學(xué)習(xí)自適應(yīng)重新加權(quán)特征圖
    • 全局信息(全局平均池化層)+ 2個(gè)FC層,用于確定特征圖權(quán)重,即“特征重新校準(zhǔn)”模塊
    • ILSVRC'17分類獲勝者(使用ResNeXt-152作為基礎(chǔ)架構(gòu))

2.3 FractalNet

  • 認(rèn)為關(guān)鍵是從淺層到深層有效地過渡,并且不需要?dú)埐畋硎?/li>
  • 具有淺和深路徑輸出的分形結(jié)構(gòu)
  • 訓(xùn)練時(shí)隨機(jī)拋棄子路徑
  • 測(cè)試時(shí)使用完整網(wǎng)絡(luò)

2.4 Densely Connected Convolutional Networks

  • 密集塊,其中每個(gè)層以前饋方式連接到之后的每個(gè)層
  • 減輕梯度消失、加強(qiáng)特征傳播、鼓勵(lì)特征重用

2.5 Efficient Networks —— SqueezeNet

  • 由1x1卷積核組成“擠壓”層,然后構(gòu)成Fire模塊,由1x1和3x3卷積核組成“擴(kuò)展”層
  • ImageNet上的AlexNet級(jí)精度,參數(shù)減少50倍
  • 可以壓縮到比AlexNet小510倍(0.5Mb參數(shù))

2.6 Learn network architectures —— Meta-learning

  • Neural Architecture Search with Reinforcement Learning (NAS)
    • 一種“控制器”網(wǎng)絡(luò),可以學(xué)習(xí)設(shè)計(jì)良好網(wǎng)絡(luò)架構(gòu)(輸出與網(wǎng)絡(luò)設(shè)計(jì)相對(duì)應(yīng)的字符串)
    • 迭代:
      1)從搜索空間中采樣架構(gòu)
      2)訓(xùn)練架構(gòu)以獲得相應(yīng)于準(zhǔn)確度的“獎(jiǎng)勵(lì)”R
      3)計(jì)算樣本概率的梯度,并通過R進(jìn)行縮放以執(zhí)行控制器參數(shù)更新(即增加被采樣架構(gòu)良好的可能性,減少不良架構(gòu)的可能性)
  • Learning Transferable Architectures for Scalable Image Recognition
    • 將神經(jīng)架構(gòu)搜索(NAS)應(yīng)用于像ImageNet這樣的大型數(shù)據(jù)集非常昂貴
    • 設(shè)計(jì)可以靈活堆疊的構(gòu)建塊(“單元”)的搜索空間
    • NASNet:使用NAS在較小的CIFAR-10數(shù)據(jù)集上找到最佳的單元結(jié)構(gòu),然后將架構(gòu)轉(zhuǎn)移到ImageNet

總結(jié)

  1. 經(jīng)典架構(gòu)
  • AlexNet:開啟CNN時(shí)代。
  • VGG:減小卷積核尺寸、增加網(wǎng)絡(luò)層數(shù)獲得高準(zhǔn)確率。
  • GoogLeNet:引入 Inception module 。
  • ResNet:引入殘差塊,證明普通堆疊層數(shù)沒意義,殘差堆疊可以;目前應(yīng)用最廣泛的網(wǎng)絡(luò)結(jié)構(gòu)。
  1. 其他架構(gòu)
  • NiN (Network in Network) :1x1卷積先驅(qū)
  • Wide ResNet:加大ResNet的寬度而不是深度
  • ResNeXT:使用多個(gè)分支加寬ResNet
  • Stochastic Dept:Dropout層
  • SENet:自適應(yīng)特征圖重新加權(quán)
  • DenseNet:每個(gè)層連接到之后的每個(gè)層
  • FractalNet:使用分形結(jié)構(gòu),不用殘差
  • SqueezeNet:壓縮網(wǎng)絡(luò),減少參數(shù)
  • NASNet:學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)
  1. 總結(jié)
  • VGG、GoogLeNet、ResNet均被廣泛使用,可在模型族中獲取 ;
  • ResNet是當(dāng)前默認(rèn)最佳的選擇,也可考慮SENet ;
  • 研究趨向于極深的網(wǎng)絡(luò) ;
  • 研究重心圍繞層/跳過連接的設(shè)計(jì)和改善梯度流
  • 努力研究深度、寬度與殘差連接的必要性
  • 更近期的趨勢(shì)是研究meta-learning
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容