經(jīng)典網(wǎng)絡(luò)框架的比較(CNN/transformer/RNN)

https://zhuanlan.zhihu.com/p/344709166

每個算法均可分為兩個部分。結(jié)構(gòu)和優(yōu)化。
其中,結(jié)構(gòu)主要由具體操作子組成,而諸如優(yōu)化器,訓(xùn)練策略等則可歸到優(yōu)化這個部分。
我將按照上述邏輯歸納對比各個經(jīng)典網(wǎng)絡(luò)。

CNN的主要操作子包括:卷積、BN、激活三個主要操作,而其中卷積是最為基礎(chǔ)的操作。
卷積具有三個特性
局部連接,局部連接會大大減少網(wǎng)絡(luò)的參數(shù)。limited receptive field
權(quán)值共享,在卷積層中使用參數(shù)共享是用來控制參數(shù)的數(shù)量。 ...
空間或時間上的下采樣,它的作用是逐漸降低數(shù)據(jù)的空間尺寸,這樣的話就能減少網(wǎng)絡(luò)中參數(shù)的數(shù)量,使得計算資源耗費(fèi)變少,也能有效控制過擬合。

這些特性會帶來歸納偏置(inductive bias)

CNN 中的卷積運(yùn)算由于使用了兩個重要的空間約束,從而有助于視覺特征的學(xué)習(xí)和提?。?br> 由于 CNN 權(quán)重共享機(jī)制,卷積層所提取的特征便具有平移不變性,它們對特征的全局位置不感冒,而只在乎這些決定性的特征是否存在。
由于卷積算子的性質(zhì),所以卷積的特征圖具有局部敏感性,也就是每次卷積操作只會考慮原始數(shù)據(jù)的一小部分的局部信息。
正是由于此,CNN 的歸納偏差缺乏對輸入數(shù)據(jù)本身的整體把握。它很擅長提取局部的有效信息,但是沒能提取全局?jǐn)?shù)據(jù)之間的長距離特征。
在視覺任務(wù)上非常成功的 CNN 依賴于架構(gòu)本身內(nèi)置的兩個歸納偏置:局部相關(guān)性:鄰近的像素是相關(guān)的;權(quán)重共享:圖像的不同部分應(yīng)該以相同的方式處理,無論它們的絕對位置如何。
卷積具有平移不變性、局部敏感性,也缺少對圖像的整體感知和宏觀理解。

Transformer 的核心組件則是自注意力層。

使用了自注意力機(jī)制所生成的視覺特征圖不會像卷積計算一樣具有空間限制。相反,它們能夠根據(jù)任務(wù)目標(biāo)和網(wǎng)絡(luò)中該層的位置來學(xué)習(xí)最合適的歸納偏差。研究表明,在模型的前幾層中使用自注意力機(jī)制可以學(xué)習(xí)到類似于卷積計算的結(jié)果。
計算機(jī)視覺領(lǐng)域中的自注意力層的輸入是特征圖,目的是計算每對特征之間的注意力權(quán)重,從而得到一個更新的特征映射。其中每個位置都包含關(guān)于同一圖像中任何其他特征的信息。

這些層可以直接代替卷積或與卷積層相結(jié)合,它們也能夠處理比常規(guī)卷積更大的感受野。因此這些模型能夠獲取空間上具有長距離間隔的特征之間的依賴關(guān)系。

當(dāng)我們在模型的最后一層是用自注意力機(jī)制來將前面的各種卷積層相融合的時候,就可以得到最優(yōu)的模型結(jié)果。事實(shí)上,在實(shí)驗(yàn)中我們會發(fā)現(xiàn),自注意力機(jī)制和卷積層是很類似的,尤其是在網(wǎng)絡(luò)的前若干層中自注意力機(jī)制學(xué)習(xí)到的歸納偏差和卷積層學(xué)習(xí)到的特征圖十分類似。

出了自注意力層,其還包含,Norm,多頭自注意力,Norm,MLP層。

未來transformer的幾個主要發(fā)展方向有:
從科研角度講,結(jié)構(gòu)上如何結(jié)合任務(wù)特性定制結(jié)構(gòu),如何使用NAS搜索結(jié)構(gòu),如何尋求transformer的可解釋性;優(yōu)化上如何保證其小數(shù)據(jù)量下的訓(xùn)練效果,嵌入偏執(zhí)歸納。
從工程角度講,如何減少計算復(fù)雜度,如何輕量化。
最后,如何利用transformer將多種任務(wù)類型統(tǒng)一起來。
https://arxiv.org/pdf/2101.01169.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容