第四天 綜述閱讀1 常見的神經(jīng)網(wǎng)絡(luò)

segmentation

INTRODUCTION

圖像分割是計算機(jī)視覺當(dāng)中不可或缺的組成部分,分割在醫(yī)學(xué)圖像分析,自動駕駛,視頻監(jiān)控等方向都起著很大的作用。隨著科技的發(fā)展,很多文獻(xiàn)已經(jīng)開發(fā)出了很多的圖像分割算法,從最早的閾值化,k均值聚類,分水嶺算法到更高級的例如活動輪廓,馬爾可夫隨機(jī)場和一些基于稀疏性的方法。在過去的幾年中深度學(xué)習(xí)(DL)網(wǎng)絡(luò)產(chǎn)生了新一代的圖像分割模型,在性能上得到了非常顯著的提升。許多人將其視為該領(lǐng)域的革命性轉(zhuǎn)變。

圖像分割可以分為語義分割和實例分割。

這篇綜述最大的貢獻(xiàn)在于:

1.這篇綜述調(diào)查了截至2019年在圖像分割方面的文獻(xiàn),討論了一百多種基于深度學(xué)習(xí)的分割方法,并對這些不同的分割方法的不同方面(database,backbone,loss,訓(xùn)練策略)進(jìn)行了比較與討論。

2.講述了約20種流行的segmentation database(2D,3D,2.5D)

3.對深度學(xué)習(xí)潛在未來的方向講述自己的見解

Overiew of deep neural networks

CNNS

CNN應(yīng)該是深度學(xué)習(xí)當(dāng)中使用最廣泛也是最成功的神經(jīng)網(wǎng)絡(luò)架構(gòu)之一。

CNN主要由三種類型的層組成:

1.卷積層(conv3-64),其中卷積權(quán)重的核(或濾波器)以提取特征。

2.非線性層(激勵層),它們在特征圖上應(yīng)用激活函數(shù)(RELU),以便能夠通過網(wǎng)絡(luò)對非線性函數(shù)進(jìn)行建模。

3.池化層,這些合并層用一些統(tǒng)計數(shù)據(jù)替換了特征圖的一小部分鄰域有關(guān)鄰域的信息(平均值,最大值等),提取主要特征;下采樣,并降低空間分辨率優(yōu)化網(wǎng)絡(luò)參數(shù)。

4.全連接層,通過卷積層的得到的一些局部特征,將這些局部特征通過權(quán)值矩陣來組裝成完整的圖像,全連接層的權(quán)重矩陣是固定的,因此也就限制了CNN中輸入圖像的尺寸必須一樣。

CNN的主要計算優(yōu)勢在于,一層中的所有接收場均具有權(quán)重,因此與完全連接的神經(jīng)網(wǎng)絡(luò)相比,參數(shù)數(shù)量明顯減少。(局部連接,窗口滑動)

一些最著名的CNN架構(gòu)包括:AlexNet(8層,5個conv層,2個FC,1個類似于softmax的lable 層)

? ? ? ? ? ZFnet(ALEXNET的繼任者,發(fā)現(xiàn)了ALEXNET中第一層包含了很多高頻和低頻信息,沒有包含很多中間信息。將第一層的11*11卷積核變?yōu)?*7,步長4變?yōu)?)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? VGGNet(16,19,conv3(2個3*3頂5*5,3個3*3頂7*7)上面兩個都是專注于縮小感受野提升準(zhǔn)確率,這個開始已經(jīng)研究網(wǎng)絡(luò)深度了,vgg超越了googlenet是分類和檢測當(dāng)中的最常用的backcone)。

? ? ? ? ? NETWORK IN NETWORK(全局平均池化層替代了fc,可以將任意h*w*d轉(zhuǎn)化為1*1*d的張量)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? GoogleNet(222層使用了全局平均池化層替代了fc,采用了inception模塊,一個卷積層多種不同尺度卷積核,使用了1*1卷積核進(jìn)行降維)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Resnet(主要是處理一個梯度消失的問題,殘差塊)

RNN和LSTM

RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)),主要的用途是處理和預(yù)測一些序列數(shù)據(jù)。這個RNN的主體結(jié)構(gòu)A除了來自輸入層XT,得到HT,同時這個A會將當(dāng)前狀態(tài)傳遞到下一步。因此RNN可以看成同一個神經(jīng)網(wǎng)絡(luò)被無限復(fù)制的結(jié)果。

RNN在NLP中的典型應(yīng)用:語言模型與文本生成(給一個單詞序列,通過這個模型預(yù)測下一個單詞),機(jī)器翻譯(將英語語句變成同樣意思的中文語句),語音識別(轉(zhuǎn)文本那種感覺),圖像描述生成

優(yōu)點:具有記憶功能,可以預(yù)測時間序列的數(shù)據(jù)

缺點:他這個只能受到上一時刻的影響,實際上往往需要結(jié)合很多這種上下文高階信息。容易導(dǎo)致梯度消失(可以用于gradient clipping的方法解決)和梯度爆炸(無法解決)

LSTM-RNNs 的改進(jìn)模型

Long Short Term網(wǎng)絡(luò),又被稱作LSTM,是一種RNN特殊的類型,可以學(xué)習(xí)長期依賴信息。

LSTM的關(guān)鍵就是這個細(xì)胞狀態(tài),在圖上方穿行而過,通過這個傳送帶,可以實現(xiàn)長時間的記憶功能。

三個門,什么該被丟棄,什么該被更新,最后的輸出。

Encoder-Decoder and Auto-Encoder Models

encoder:conv(提取特征)+bn(對訓(xùn)練圖像的分布?xì)w一化,快速學(xué)習(xí))+pooling(下采樣,將尺度不變的特征傳到下一層)對圖像的局部像素值進(jìn)行一個歸類與分析,從而獲得更高階的語義信息。

decoder 將縮小后的圖像通過卷積重置上采樣恢復(fù)到和原圖的分辨率一樣,為了彌補(bǔ)在encoder當(dāng)中pooling將圖像變小造成的細(xì)節(jié)上的損失。

GANs(照理來說是要產(chǎn)生大量圖像樣本的,也可以用于圖像分割,那樣就是兩個輸入,原圖加金標(biāo)準(zhǔn)和原圖加mask)

生成器:創(chuàng)造一個看起來像真的的圖片

分辨器:判定給定的是不是真實圖片

開始的時候,這里兩個模型都是沒有經(jīng)過訓(xùn)練的,這兩個模型一起對抗訓(xùn)練,然后這兩個模型在訓(xùn)練過程當(dāng)中不斷對抗從而性能越來越強(qiáng),最終達(dá)到一個穩(wěn)態(tài)。

Transfer Learning

在某些情況下,可以在新的數(shù)據(jù)集上從頭開始訓(xùn)練DL模型(假設(shè)有足夠數(shù)量的標(biāo)記訓(xùn)練數(shù)據(jù)),但是在許多情況下,沒有足夠的標(biāo)記數(shù)據(jù)來從頭開始訓(xùn)練模型,并且可以使用遷移學(xué)習(xí)解決這個問題。在遷移學(xué)習(xí)中,通常通過對新任務(wù)的適應(yīng)過程,將在一個任務(wù)上訓(xùn)練的模型重新用于另一(相關(guān))任務(wù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容