https://mp.weixin.qq.com/s/VAUEFklRnbDj54TfEdv96w

本文中,作者提出了一種名為動態(tài)區(qū)域感知卷積(DRConv)?的新卷積,它可以自動將多個濾波器分配給具有相似特征表示的空間區(qū)域。標(biāo)準(zhǔn)卷積層通常是增加濾波器的數(shù)量以提取更多的視覺信息,但這會導(dǎo)致較高的計(jì)算成本。
而本文的DRConv使用可學(xué)習(xí)的指導(dǎo)將增加的濾波器轉(zhuǎn)移到空間維度,這不僅提高了卷積的表示能力,而且保持了計(jì)算成本和標(biāo)準(zhǔn)卷積的平移不變性。DRConv是處理復(fù)雜多變空間信息分布的一種有效而優(yōu)雅的方法,由于其即插即用的特性,它可以代替現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積。
作者在廣泛的模型(MobileNet系列、ShuffleNet V2等)和任務(wù)(分類、人臉識別、檢測和分割)上評估了DRConv。在ImageNet任務(wù)上,基于DRConv的ShuffleNet V2-0.5×在46M的multiply-adds計(jì)算量水平上實(shí)現(xiàn)了67.1%的SOTA性能,相對baseline提高了6.3%?。
Dynamic Region-Aware Convolution
論文地址:https://arxiv.org/abs/2003.12243
https://arxiv.org/abs/2003.12243v3
代碼地址:未開源
CVPR2021
我們提出了一種稱為動態(tài)區(qū)域感知卷積(DRConv)的新卷積,它可以自動將多個濾波器分配給特征具有相似表示的相應(yīng)空間區(qū)域。這樣,DRConv在語義變化建模方面優(yōu)于標(biāo)準(zhǔn)卷積。標(biāo)準(zhǔn)卷積層可以增加文件服務(wù)器的數(shù)量以提取更多的可視元素,但會導(dǎo)致較高的計(jì)算成本。更為優(yōu)雅的是,我們的DRConv使用可學(xué)習(xí)的指導(dǎo)將遞增的通道濾波器轉(zhuǎn)移到空間維度,這不僅提高了卷積的表示能力,而且保持了計(jì)算成本和標(biāo)準(zhǔn)卷積劑量的平移不變性。DRConv是處理復(fù)雜多變空間信息分布的一種有效而優(yōu)雅的方法。它可以用即插即用特性代替現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,特別是在高效網(wǎng)絡(luò)中為卷積層供電。我們在廣泛的模型(MobileNet系列、ShuffleNet V2等)和任務(wù)(分類、人臉識別、檢測和分割)上評估DRConv。在ImageNet分類中,基于DRConv的ShuffleNet V2-0.5x在46M乘加水平上實(shí)現(xiàn)了67.1%的最先進(jìn)性能,相對提高了6.3%。
1.介紹
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)由于其強(qiáng)大的表示能力,在圖像分類、人臉識別、目標(biāo)檢測等許多應(yīng)用領(lǐng)域取得了重大進(jìn)展。CNN強(qiáng)大的表示能力源于不同的濾波器負(fù)責(zé)在不同的抽象級別提取信息。然而,當(dāng)前主流卷積運(yùn)算在空間域中以濾波器共享方式執(zhí)行,因此只有在重復(fù)應(yīng)用這些運(yùn)算時才能捕獲更有效的信息(例如,使用更多濾波器增加信道和深度)。這種重復(fù)的方式有幾個限制。首先,它的計(jì)算效率很低。其次,它會導(dǎo)致優(yōu)化困難,需要仔細(xì)解決[12,31]。
與濾波器共享方法不同,為了對更多的視覺元素進(jìn)行建模,一些研究側(cè)重于通過在空間維度上使用多個濾波器來利用語義信息的多樣性。[9,28]提出了替代卷積,在空間維度的每個像素上都有單獨(dú)的濾波器,為了方便起見,我們將它們統(tǒng)稱為局部卷積。因此,每個位置的特征將被不同地處理,這比標(biāo)準(zhǔn)卷積更有效地提取空間特征。[28,26,25]已經(jīng)展示了局部卷積在人臉識別任務(wù)中的威力。雖然與標(biāo)準(zhǔn)卷積相比,局部卷積并沒有增加計(jì)算復(fù)雜度,但它有兩個致命的缺點(diǎn)。一種是帶來大量的參數(shù),這些參數(shù)與空間大小成正比。二是局部卷積破壞了平移不變性,這對某些需要平移不變性特征的任務(wù)(例如,局部卷積不適用于分類任務(wù))是不友好的。這兩種方法都難以在神經(jīng)網(wǎng)絡(luò)中廣泛應(yīng)用。此外,局部卷積仍然在不同樣本之間共享濾波器,這使得它對每個樣本的特定特征不敏感。例如,在人臉識別和目標(biāo)檢測任務(wù)中,存在具有不同姿勢或視點(diǎn)的樣本。因此,跨不同樣本的共享濾波器無法有效地提取自定義特征。
考慮到上述局限性,本文提出了一種新的卷積算法,稱為動態(tài)區(qū)域卷積算法(DRConv),該算法可以通過可學(xué)習(xí)的指令自動將濾波器分配到相應(yīng)的空間維度區(qū)域。因此,DRConv具有強(qiáng)大的語義表示能力,并完美地保持了平移不變性。具體來說,我們設(shè)計(jì)了一個可學(xué)習(xí)的引導(dǎo)掩模模塊,根據(jù)每個輸入圖像的特點(diǎn)自動生成濾波器的區(qū)域共享模式。區(qū)域共享模式意味著我們將空間維度劃分為幾個區(qū)域,每個區(qū)域內(nèi)只共享一個濾波器。針對不同樣本和不同區(qū)域的濾波器根據(jù)相應(yīng)的輸入特征動態(tài)生成,更有效地關(guān)注其自身的重要特征?!?/p>
我們的DRConv的結(jié)構(gòu)如圖1所示。我們應(yīng)用標(biāo)準(zhǔn)卷積從輸入生成引導(dǎo)特征。根據(jù)引導(dǎo)特征,將空間維度劃分為多個區(qū)域??梢钥闯觯龑?dǎo)遮罩中具有相同顏色的像素附著到相同區(qū)域。在每個共享區(qū)域中,我們應(yīng)用濾波器生成器模塊生成一個濾波器來執(zhí)行二維卷積運(yùn)算。因此需要優(yōu)化的參數(shù)主要集中在濾波器生成器模塊中,其數(shù)量與空間大小無關(guān)。因此,除了顯著提高網(wǎng)絡(luò)性能外,我們的DRConv與局部卷積相比可以大大減少參數(shù)數(shù)量,并且與標(biāo)準(zhǔn)卷積相比幾乎不增加計(jì)算復(fù)雜度。為了驗(yàn)證我們的方法的有效性,我們在幾個不同的任務(wù)上進(jìn)行了一系列的實(shí)證研究,包括圖像分類、人臉識別、目標(biāo)檢測和分割,簡單地用我們的DRConv代替標(biāo)準(zhǔn)卷積。實(shí)驗(yàn)結(jié)果表明,DRConv可以在這些任務(wù)上獲得優(yōu)異的性能。我們還提供了充分的消融研究,以分析我們的DRConv的有效性和魯棒性。
總之,這項(xiàng)工作做出了以下貢獻(xiàn):,
1.我們提出了一種新的動態(tài)區(qū)域感知卷積算法,它不僅具有強(qiáng)大的語義表示能力,而且能夠很好地保持平移方差特性。
2.我們專門為可學(xué)習(xí)引導(dǎo)掩模設(shè)計(jì)了反向傳播過程,因此我們的區(qū)域共享模式是根據(jù)反向傳播的總體任務(wù)損失梯度來確定和更新的,這意味著我們的方法可以以端到端的方式進(jìn)行優(yōu)化。
3.我們的DRConv可以通過簡單地替換標(biāo)準(zhǔn)卷積而在圖像分類、人臉識別、檢測和分割任務(wù)上實(shí)現(xiàn)優(yōu)異的性能,而不會增加太多的計(jì)算成本。
2.相關(guān)工作
我們從空間相關(guān)工作和動力機(jī)制的角度將我們的工作與其他方法區(qū)分開來。
空間相關(guān)卷積。
從空間相關(guān)卷積設(shè)計(jì)的角度來看,最早的啟示是局部卷積。為了有效地利用圖像數(shù)據(jù)中的語義信息,局部卷積[9]對每個像素應(yīng)用單獨(dú)的非共享濾波器,這在不需要平移方差的任務(wù)中具有很大的潛力。DeepFace[28]和DeepID系列[26,25]展示了局部卷積在人臉識別任務(wù)中的優(yōu)勢。這些工作說明了空間維度的局部分布是重要的。
在檢測等其他任務(wù)上,R-FCN[5]使用基于區(qū)域的完全卷積網(wǎng)絡(luò)來提取局部表示。它將輸出通道放大到3×3倍,然后在不同通道中選擇相應(yīng)的子傳感器組合成3×3塊。在人員重新識別方面,Sun等人[27]應(yīng)用基于部分的卷積來學(xué)習(xí)區(qū)分性部分信息特征,這也可以被視為一種空間相關(guān)卷積。
除了上述方法外,一些研究還試圖改變空間特征以更好地模擬語義變化??臻g變換網(wǎng)絡(luò)[22]學(xué)習(xí)變換以扭曲特征地圖,但難以訓(xùn)練。Jeon等人[17]介紹了一種稱為主動卷積單元(ACU)的卷積單元,它可以產(chǎn)生不固定的形狀,因?yàn)樗鼈兛梢栽谟?xùn)練期間通過反向傳播學(xué)習(xí)任何形式。ACU使用學(xué)習(xí)偏移量增加卷積中的采樣位置,并且偏移量在訓(xùn)練后變?yōu)殪o態(tài)??勺冃尉矸e網(wǎng)絡(luò)[6]進(jìn)一步使位置偏移動態(tài),然后將偏移添加到標(biāo)準(zhǔn)卷積中的常規(guī)網(wǎng)格采樣位置。
與上述研究相比,我們的方法自適應(yīng)地將空間維度劃分為多個區(qū)域,并在每個區(qū)域內(nèi)共享一個濾波器。此外,我們的設(shè)計(jì)還可以保持平移不變性,提取更豐富的信息。
動力機(jī)制。隨著數(shù)據(jù)依賴機(jī)制[1,16,29]的流行,它強(qiáng)調(diào)提取更多的定制特征[22]。對動力機(jī)制的研究將許多任務(wù)推向了新的高度。得益于數(shù)據(jù)依賴機(jī)制,網(wǎng)絡(luò)可以靈活地調(diào)整自身,包括結(jié)構(gòu)和參數(shù),以自動適應(yīng)各種信息,提高神經(jīng)網(wǎng)絡(luò)的表示能力。
一些方法[2,32]表明,空間維度上的不同區(qū)域在表征學(xué)習(xí)中并不同等重要。例如,重要區(qū)域的激活需要被放大,以便在正向傳播中發(fā)揮主導(dǎo)作用。SKNet[19]設(shè)計(jì)了一個有效的模塊,在通道注意的基礎(chǔ)上明智地選擇合適的接收野,并獲得更好的性能。它動態(tài)地重組網(wǎng)絡(luò),以便在擴(kuò)張的卷積中獲得不同的感受野[34,35]。在語義分割中,[36]對像素組進(jìn)行關(guān)注,以彌補(bǔ)SENet中空間信息的不足,[15]在每個像素及其周圍像素之間建立鏈接,以捕獲重要信息。注意機(jī)制被設(shè)計(jì)成通過可學(xué)習(xí)的方法動態(tài)校準(zhǔn)前向傳播中的信息流。
從動態(tài)權(quán)重的角度來看,CondConv[33]通過幾個權(quán)重的動態(tài)線性組合來獲得動態(tài)權(quán)重。每個樣本的專門卷積核是以類似于專家混合的方式學(xué)習(xí)的。在空間域中,為了處理對象變形,可變形核[8]直接對原始核空間進(jìn)行重采樣,以適應(yīng)有效感受野(ERF)。局部關(guān)系網(wǎng)絡(luò)[14]基于局部像素對的組合關(guān)系自適應(yīng)地確定空間維度的聚合權(quán)重。非局部[31]操作通過所有位置特征的加權(quán)和計(jì)算每個位置的響應(yīng),這可以使其捕獲長期依賴性。
與上述動態(tài)方法不同,DRConv應(yīng)用動態(tài)引導(dǎo)掩碼自動確定多個濾波器的分布,以便處理空間語義的可變分布。
3.我們的方法
權(quán)重共享機(jī)制固有地限制了標(biāo)準(zhǔn)卷積來模擬語義變化,因?yàn)閱蝹€濾波器的容量很差。因此,標(biāo)準(zhǔn)卷積必須在通道維度上劇烈增加濾波器的數(shù)量,以匹配更多的空間視覺元素,這是低效的。局部卷積利用了空間信息的多樣性,但犧牲了平移不變性。為了一勞永逸地解決上述限制,我們進(jìn)一步提出了一種可行的解決方案,稱為DRConv,如圖1所示,它不僅通過在空間維度上使用多個濾波器增加了統(tǒng)計(jì)的多樣性,而且還保持了這些具有相似特征的位置的平移不變性。
3.1. 動態(tài)區(qū)域感知卷積
我們首先簡要地描述了標(biāo)準(zhǔn)卷積和基本局部卷積,然后轉(zhuǎn)移到DRConv。為了方便起見,我們省略了核大小和濾波器的步長。標(biāo)準(zhǔn)卷積的輸入可以表示為X∈ ru×V×C,其中U、V、C分別表示高度、寬度和通道。和S∈ ru×V表示空間維度Y∈ 輸出為ru×V×O,W∈ R C用于標(biāo)準(zhǔn)卷積濾波器。對于輸出特征的第o個通道,對應(yīng)的特征映射為
其中? 是二維卷積運(yùn)算。
對于基本的局部卷積,我們使用W∈ ru×V×C表示在空間維度上不共享的濾波器。因此,第o個輸出特征映射可以表示為
其中,W(o)u,v,c表示像素(u,v)處的單個非共享濾波器,這不同于標(biāo)準(zhǔn)卷積。
按照上述公式,我們定義了引導(dǎo)掩模M={S0,···,Sm?1} 表示從空間維度劃分的區(qū)域,其中在區(qū)域St、t中僅共享一個濾波器∈ [0,m? 1]. M是根據(jù)數(shù)據(jù)依賴機(jī)制從輸入特征中學(xué)習(xí)的。我們將這些區(qū)域的濾波器表示為W=[W0,···,Wm?1],
其中濾波器為Wt∈ rc對應(yīng)于區(qū)域St。該層輸出特征圖的第o個通道可以表示為
其中,W(o)t,c表示W(wǎng)(o)t的第c個通道,(u,v)是區(qū)域St中的一個點(diǎn)。需要注意的是,如果核大小大于1×1,我們在這里使用的點(diǎn)(u,v)對應(yīng)于卷積濾波器的中心。這意味著核大小為3×3或5×5的濾波器將提取邊界上相鄰區(qū)域的特征。
一般來說,我們的方法主要分為兩個步驟。首先,我們使用一個可學(xué)習(xí)的引導(dǎo)模板將空間特征劃分為多個跨空間維度的區(qū)域。如圖1所示,引導(dǎo)掩模中具有相同顏色的像素被附加到相同區(qū)域。從圖像語義的角度出發(fā),將語義相似的特征賦予同一區(qū)域。
其次,在每個共享區(qū)域中,我們使用濾波器生成器模塊生成一個定制的濾波器來執(zhí)行正常的二維卷積運(yùn)算。自定義濾波器可以根據(jù)輸入圖像的重要特征自動調(diào)整。為了更好地解釋我們的方法,我們主要介紹了以下兩個模塊:可學(xué)習(xí)引導(dǎo)掩模和濾波器生成器模塊??蓪W(xué)習(xí)引導(dǎo)遮罩決定將哪個濾波器分配給哪個區(qū)域。濾波器生成器模塊生成將分配給不同區(qū)域的相應(yīng)濾波器。
3.2. 可學(xué)習(xí)引導(dǎo)掩膜
作為我們提出的DRConv的最重要部分之一,可學(xué)習(xí)引導(dǎo)掩模決定濾波器在空間維度上的分布(哪個濾波器將被分配到哪個區(qū)域),并通過損失函數(shù)進(jìn)行優(yōu)化。因此,濾波器可以自動適應(yīng)每個輸入的空間信息的變化,并且濾波器分布將相應(yīng)地變化。具體而言,對于具有m個共享區(qū)域的k×k DRConv,我們應(yīng)用k×k標(biāo)準(zhǔn)卷積產(chǎn)生具有m個通道(k表示核大小)的引導(dǎo)特征。我們使用F∈ ru×V×m表示引導(dǎo)特征,m∈ 用于引導(dǎo)掩模的ru×V。對于空間域中的每個位置(u,v),我們有
其中argmax(·)輸出最大值的索引和Fu,v表示位置(u,v)處引導(dǎo)特征的向量,具有m個元素。因此,引導(dǎo)遮罩中的值從0到m不等? 1并指出應(yīng)在相應(yīng)位置使用的濾波器的索引。
為了使導(dǎo)向掩??蓪W(xué)習(xí),我們必須得到產(chǎn)生導(dǎo)向特征的權(quán)重梯度。然而,導(dǎo)向特征沒有梯度,導(dǎo)致相關(guān)參數(shù)無法更新。因此,我們以另一種方式為引導(dǎo)特征設(shè)計(jì)近似梯度,如圖2(a)所示。我們將詳細(xì)解釋正向和反向傳播。
正向傳播:
由于我們有等式(4)中的引導(dǎo)掩模,我們可以得到每個位置(u,v)的濾波器W?u,v作為流動:
其中WMu,v是濾波器[W0,···,Wm]之一?1] 由G(·)和Mu生成,v是位置(u,v)處引導(dǎo)特征F的通道尺寸最大值的索引。這樣,m個濾波器將與所有位置建立對應(yīng)關(guān)系,并且整個空間像素可以劃分為m個組。這些使用相同濾波器的像素具有相似的上下文,因?yàn)榫哂衅揭撇蛔冃缘臉?biāo)準(zhǔn)卷積將其信息傳遞給引導(dǎo)特征。
反向傳播:
如圖2(a)所示,我們首先引入F?,它是在反向傳播中對引導(dǎo)掩模的一個熱形式(例如,μ,v=2,m=5,μ,v的一個熱形式是[0,0,1,0,0])的替換,
式(6)為Softmax(·)函數(shù),用于引導(dǎo)特征F穿過通道尺寸。在SOFTmax操作下,我們期望F?j u,v盡可能接近0或1。結(jié)果,F(xiàn)?j u,v和引導(dǎo)掩模的一個熱形式之間的間隙變得非常小。此外,式(5)中的W?u,v可視為濾波器[W0,··,Wm]?1] 乘以Mu,v的一個熱形式,可近似為[F?0 u,v,··,F(xiàn)?m?1 u,v]。那么F?j u,v的梯度可以通過式中h,i表示點(diǎn)積,5·L表示張量相對于損失函數(shù)的梯度得到。如圖2(a)所示,等式(7)是等式(5)的近似反向傳播。
其中o表示元素對元素的乘法,等式(8)正好是等式(6)的反向傳播。如果我們不設(shè)計(jì)特殊的反向傳播,SGD無法優(yōu)化相關(guān)參數(shù),因?yàn)楹瘮?shù)argmax(·)是不可微的,并且會阻止梯度的傳播。因此,SOFTMAX(·)函數(shù)被用作反向傳播中argmax(·)的近似替換,它是可微的,將縮小兩個函數(shù)輸出之間的差距。更重要的是,我們可以利用它將梯度轉(zhuǎn)換為引導(dǎo)特征,從而優(yōu)化引導(dǎo)掩模。
3.3. 動態(tài)濾波器:濾波器生成器模塊
在我們的DRConv中,多個濾波器將分配給不同的區(qū)域。濾波器生成器模塊用于為這些區(qū)域生成濾波器。由于不同圖像之間特征的多樣性,跨圖像的共享濾波器不足以有效地關(guān)注圖像自身的特征。例如在人臉識別和目標(biāo)檢測任務(wù)中具有不同姿勢和視點(diǎn)的圖像,需要定制哪些特征來關(guān)注每個圖像的特定特征。
按照上面使用的符號,我們將輸入表示為X∈ 濾波器發(fā)生器模塊的ru×V×C和G(·),主要包括兩個卷積層。m個濾波器表示為W=[W0,···,Wm?1] 并且每個濾波器僅在一個區(qū)域Rt中共享。如圖2(b)所示,為了獲得核大小為k×k的m個濾波器,我們使用自適應(yīng)平均池將樣本X降到大小為k×k。然后我們應(yīng)用兩個連續(xù)的1×1卷積層:第一層使用sigmoid(·)作為激活函數(shù),第二層使用group=m不使用激活函數(shù)。濾波器生成器模塊可以增強(qiáng)捕獲不同圖像特定特征的能力。如圖2(b)所示,卷積濾波器分別基于每個樣本的特征進(jìn)行預(yù)測。因此,每個濾波器都可以根據(jù)各自的特性進(jìn)行自動調(diào)整。
4.實(shí)驗(yàn)
在本節(jié)中,我們將通過將我們提出的DRConv嵌入現(xiàn)有的流行神經(jīng)網(wǎng)絡(luò)(包括ShuffleNet V2[21]和MobileNet系列[13,24])來證明其有效性。我們將DRConv與ImageNet[23]、MS1M-V2[10]和COCO上現(xiàn)有的最新技術(shù)在圖像分類、人臉識別、目標(biāo)檢測和分割方面進(jìn)行了比較。除非另有規(guī)定,DRConv的所有實(shí)驗(yàn)均基于8-可學(xué)習(xí)區(qū)域(即m=8)。
4.1. 分類
ImageNet 2012數(shù)據(jù)集[23]是一個被廣泛接受的權(quán)威圖像分類數(shù)據(jù)集,由128萬張訓(xùn)練圖像和1000個類別的50k驗(yàn)證圖像組成。按照主流工作,所有模型都在整個訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練,并通過單作物top-1驗(yàn)證集精度進(jìn)行評估。對于訓(xùn)練和評估,輸入圖像分辨率為224×224。訓(xùn)練設(shè)置如下[21],我們實(shí)驗(yàn)中的所有模型都經(jīng)過240個時期的訓(xùn)練,學(xué)習(xí)率從0.5開始,線性下降到0。
為了證明DRConv的有效性,我們將DRConv與最先進(jìn)的方法進(jìn)行了比較,包括[8,33]。結(jié)果如表1所示。例如,在第一列中,CondConv-ShuffleNetV2表示ShuffleNetV2中的所有1×1標(biāo)準(zhǔn)卷積都被CondConv替換[33]。對于基于DRConv的模型,我們用DRConv替換主干中的所有1×1標(biāo)準(zhǔn)卷積??梢钥闯?,在計(jì)算成本相當(dāng)?shù)那闆r下,DRCONVShuffleNet V2在0.5倍和1倍尺度下分別比ShuffleNet V2獲得6.3%和3.6%的增益。DRConv-MobileNetV2比MobileNetV2獲得3.7%的增益,DRConv-MobileNetV1比基線MobileNetV1獲得4.9%的增益。我們還通過使用較少的計(jì)算成本來評估我們的方法,并發(fā)現(xiàn)我們在使用較少的計(jì)算方面仍然比CondConv有優(yōu)勢,如標(biāo)記為的模型所示?. 這些實(shí)驗(yàn)結(jié)果表明,基于DRConv的網(wǎng)絡(luò)不僅比基線有很大的改進(jìn),而且比最新的方法有很大的改進(jìn),證明了我們方法的有效性。
作為其他一些任務(wù)的基礎(chǔ),分類需要提取盡可能多的信息來預(yù)測圖像的標(biāo)簽,因?yàn)镮mageNet數(shù)據(jù)集中有大量的類別。傳統(tǒng)的大型網(wǎng)絡(luò)由于其巨大的深度和廣度,可以實(shí)現(xiàn)最先進(jìn)的狀態(tài)。對于實(shí)際應(yīng)用中的高效網(wǎng)絡(luò),在有限的深度和寬度約束下,需要提高提取有用信息的效率。因此,我們設(shè)計(jì)了DRConv,以充分利用空間信息的多樣性,在不增加額外計(jì)算成本的情況下,增強(qiáng)表示能力??臻g信息的多重過濾策略意味著它可以匹配更多的信息模式。
4.2. 人臉識別
我們使用MobileFaceNet[3]作為主干網(wǎng),它只有1M個參數(shù)和189M個MADD,輸入大小為112×96。為了保持訓(xùn)練的穩(wěn)定性,在我們的實(shí)現(xiàn)中,我們將Arcface損耗[7]替換為AM Softmax損耗[30]。我們用于訓(xùn)練的數(shù)據(jù)集是MS1M-V2,它是一個大規(guī)模人臉數(shù)據(jù)集,包含85k名人的580萬張圖像。它是MS-Celeb-1M數(shù)據(jù)集[10]的半自動改進(jìn)版,由100k身份的1M照片組成,并有大量嘈雜的圖像或錯誤的ID標(biāo)簽。我們用于評估的數(shù)據(jù)集是MegaFace[18],其中包括1M張60k身份的圖像作為庫集,100k張來自FaceScrub的530個身份的圖像作為探測集。出于同樣的原因,它也是通過手動清除的改進(jìn)版本。
培訓(xùn)和評估:我們使用動量為0.9的SGD優(yōu)化模型,批量大小為512。我們?yōu)?20k次迭代訓(xùn)練所有模型。學(xué)習(xí)速率從0.1開始,在252k、364k和406k迭代時除以10。權(quán)重衰減的設(shè)置如下[3]。對于評估,我們使用人臉識別度量作為評估指標(biāo),該度量是指MegaFace上排名1的準(zhǔn)確度。
為了驗(yàn)證DRConv的有效性,我們將DRConv與幾種相關(guān)方法進(jìn)行了比較?;贛obileFaceNet主干網(wǎng),我們簡單地用DRConv替換所有瓶頸塊中的1×1標(biāo)準(zhǔn)卷積。如表2所示,DRConv MobileFaceNet的性能比基線高出4.9%,比CondConv高出1.4%。為了進(jìn)一步的比較,我們選擇了局部卷積算法,該算法適用于人臉識別,但需要大量的參數(shù)。在設(shè)備內(nèi)存的限制下,我們在最后三層應(yīng)用了局部卷積。DRConv-MobileFaceNet比Local-MobileFaceNet(在MobileFaceNet中使用局部卷積)的準(zhǔn)確率高1.3%,進(jìn)一步表明了我們提出的DRConv的優(yōu)越性。由于人臉數(shù)據(jù)集中局部統(tǒng)計(jì)信息的空間平穩(wěn)性,DRConv的引導(dǎo)掩碼模塊可以學(xué)習(xí)到清晰的語義模式。如圖3所示,面部組件出現(xiàn)在這些引導(dǎo)掩膜中。
4.3. COCO目標(biāo)檢測與分割
我們進(jìn)一步評估了DRConv在目標(biāo)檢測和分割方面的有效性。我們使用COCO數(shù)據(jù)集,該數(shù)據(jù)集由80k列車圖像和40k val圖像組成。與以前的許多工作一樣,我們在80k列車圖像和35k val圖像子集(不包括5k minival圖像)的并集上進(jìn)行訓(xùn)練,在此基礎(chǔ)上評估我們的DRConv。
在實(shí)驗(yàn)中,我們使用DetNAS-300M[4]和Mask R-CNN[11]框架,以FPN[20]和4conv1fc盒式磁頭為基礎(chǔ)來評估我們的方法。權(quán)重分別由在ImageNet數(shù)據(jù)集[23]上訓(xùn)練并用作特征提取器的ClsNASNet[4]和ResNet50[12]的參數(shù)初始化。在DetNAS-300M中,訓(xùn)練設(shè)置如下[4]。在Mask RCNN中,頭部中可能對象的建議數(shù)設(shè)置為512。我們在8GPU上訓(xùn)練檢測和分割網(wǎng)絡(luò),批量大小為16,迭代次數(shù)為180k。開始時,我們用因子0.33預(yù)熱網(wǎng)絡(luò),進(jìn)行500次迭代。在訓(xùn)練過程中,我們使用學(xué)習(xí)率0.2,并在120k、140k和150k迭代時將學(xué)習(xí)率衰減0.1倍。
我們的目標(biāo)是評估當(dāng)我們用DRConv替換DetNAS-300M主干中的1×1標(biāo)準(zhǔn)卷積和掩模R-CNN FPN中的兩層時的效果,因此性能的任何改善都可以歸因于我們的DRConv的有效性。此外,我們將4-learnable-region、8-learnable-region和16-learnable-region設(shè)置應(yīng)用于DRConv,以分析不同區(qū)域數(shù)的影響。
將我們的DRConv與標(biāo)準(zhǔn)卷積進(jìn)行比較的結(jié)果如表3所示。從結(jié)果可以看出,DetNAS-300M中有8個區(qū)域的DRConv可以顯著提高檢測性能1.8%,根據(jù)COCO的標(biāo)準(zhǔn)AP度量,只有掩模R-CNN FPN中有16個區(qū)域的兩個DRConv層可以提高檢測性能1.2%,提高分割性能1.1%。DRConv利用引導(dǎo)掩碼將空間維度劃分為多個組,以便每個濾波器可以關(guān)注特定的上下文。另一方面,類似噪聲的背景可以很容易地從其他感興趣的區(qū)域中分離出來,并且大多數(shù)濾波器可以集中在重要區(qū)域。結(jié)果表明,對于不同數(shù)量的共享區(qū)域,當(dāng)我們將空間維度劃分為更多的區(qū)域時,DRConv可以獲得更好的性能。劃分的區(qū)域越多,每個組的上下文就越專用,每個濾波器就越容易優(yōu)化。
5.燒蝕研究
消融實(shí)驗(yàn)在分類(ImageNet 2012[23])和人臉識別(MS1M-V2[10])上進(jìn)行。實(shí)驗(yàn)設(shè)置與第4節(jié)相同。在這一部分中,我們分析了可學(xué)習(xí)引導(dǎo)掩碼的語義信息,以及不同模型大小的影響。補(bǔ)充材料中分析了不同區(qū)域數(shù)和不同空間大小對DRConv的影響。
動態(tài)引導(dǎo)掩模的可視化。
為了探索該方法中可學(xué)習(xí)引導(dǎo)蒙版的機(jī)理,我們分別在分類任務(wù)和人臉識別任務(wù)中對圖像進(jìn)行m=4的引導(dǎo)蒙版可視化。圖3顯示了我們的方法成功地將濾波器分配給具有相同語義的區(qū)域。換言之,我們可以了解不同區(qū)域根據(jù)圖像語義使用不同的濾波器,這是合理和有效的。由于更清晰的語義表示,引導(dǎo)掩碼可以自動在更深的層中形成更少的區(qū)域。
需要注意的是,引導(dǎo)掩模完全由空間信息分布決定,因此一個區(qū)域可能是連接點(diǎn)或離散點(diǎn)。淺層中的區(qū)域點(diǎn)往往是離散的,因?yàn)樘卣髋c輸入圖像的詳細(xì)上下文更相關(guān)。深層區(qū)域的點(diǎn)往往是連接的,因?yàn)檫@些點(diǎn)有一個更大的感受野,這與語義信息更相關(guān)。
不同型號。
除上述研究外,我們還對DRConv在不同模型尺寸下的性能進(jìn)行了燒蝕研究。在ImageNet數(shù)據(jù)集上,我們對ShuffleNet V2的[0.5×、1×、1.5×、2×]和MobileNet V2的[0.25×、0.5×、0.75×、1×]進(jìn)行了實(shí)驗(yàn),以分析我們的DRConv的有效性。從圖4所示的實(shí)驗(yàn)結(jié)果來看,使用DRConv的小型模型將比大型模型獲得更多的獎金。顯然,小模型在每一層中的輸入通道和濾波器較少,并且不能為下一層提取足夠的特征。通過用DRConv取代標(biāo)準(zhǔn)卷積,小型模型將顯著提高其建模語義信息的能力,從而獲得更好的性能。
6.結(jié)論
在本文中,我們提出了一種新的卷積,稱為動態(tài)區(qū)域感知卷積(DRConv),該卷積由空間域中的部分濾波器共享激勵,并成功地保持了平移不變性。因此,我們提出的DRConv可以完全替代任何現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積。我們設(shè)計(jì)了一個小的可學(xué)習(xí)模塊來預(yù)測引導(dǎo)掩碼,用于指導(dǎo)濾波器的分配,從而保證區(qū)域內(nèi)相似的特征可以匹配相同的濾波器。此外,我們還設(shè)計(jì)了濾波器生成器模塊,為每個樣本生成定制的濾波器,這使得不同的輸入可以使用自己的專用濾波器。在多個不同任務(wù)上的綜合實(shí)驗(yàn)表明了我們的DRConv的有效性,它在分類、人臉識別、目標(biāo)檢測和分割方面優(yōu)于最新技術(shù)和其他優(yōu)秀的手動設(shè)計(jì)方法。我們在燒蝕研究中的實(shí)驗(yàn)表明,可學(xué)習(xí)引導(dǎo)掩模在每個樣本的濾波器分布中起著關(guān)鍵作用,這有助于獲得更好的性能。
參考文獻(xiàn):
[8] Hang Gao, Xizhou Zhu, Steve Lin, and Jifeng Dai. Deformable kernels: Adapting effective receptive fields for object deformation. arXiv preprint arXiv:1910.02940, 2019.
[9] Karo Gregor and Yann LeCun. Emergence of complexlike cells in a temporal product network with local receptive fields. arXiv preprint arXiv:1006.0448, 2010. 1
[14] Han Hu, Zheng Zhang, Zhenda Xie, and Stephen Lin. Local relation networks for image recognition. In IEEE International Conference on Computer Vision (ICCV), pages 3464–3473, 2019.
[25] Yi Sun, Yuheng Chen, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation by joint identificationverification. In Advances in Neural Information Processing Systems (NeurIPS), pages 1988–1996, 2014. 1, 2??
[26] Yi Sun, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation from predicting 10,000 classes. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1891–1898, 2014. 1, 2? ?
[28] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior?Wolf. Deepface: Closing the gap to human-level performance in face verification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1701–1708, 2014. 1
[31] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7794–7803, 2018.
[36] Zilong Zhong, Zhong Qiu Lin, Rene Bidart, Xiaodan Hu,Ibrahim Ben Daya, Jonathan Li, and Alexander Wong. Squeeze-and-attention networks for semantic segmentation. arXiv preprint arXiv:1909.03402, 2019. 3