999国产,操骚货theav,亚洲狠狠操一二三区

https://mp.weixin.qq.com/s/VAUEFklRnbDj54TfEdv96w

本文中，作者提出了一種名為動態(tài)區(qū)域感知卷積（DRConv）?的新卷積，它可以自動將多個濾波器分配給具有相似特征表示的空間區(qū)域。標(biāo)準(zhǔn)卷積層通常是增加濾波器的數(shù)量以提取更多的視覺信息，但這會導(dǎo)致較高的計(jì)算成本。

而本文的DRConv使用可學(xué)習(xí)的指導(dǎo)將增加的濾波器轉(zhuǎn)移到空間維度，這不僅提高了卷積的表示能力，而且保持了計(jì)算成本和標(biāo)準(zhǔn)卷積的平移不變性。DRConv是處理復(fù)雜多變空間信息分布的一種有效而優(yōu)雅的方法，由于其即插即用的特性，它可以代替現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積。

作者在廣泛的模型（MobileNet系列、ShuffleNet V2等）和任務(wù)（分類、人臉識別、檢測和分割）上評估了DRConv。在ImageNet任務(wù)上，基于DRConv的ShuffleNet V2-0.5×在46M的multiply-adds計(jì)算量水平上實(shí)現(xiàn)了67.1%的SOTA性能，相對baseline提高了6.3%?。

Dynamic Region-Aware Convolution

論文地址：https://arxiv.org/abs/2003.12243

https://arxiv.org/abs/2003.12243v3

代碼地址：未開源

CVPR2021

我們提出了一種稱為動態(tài)區(qū)域感知卷積（DRConv）的新卷積，它可以自動將多個濾波器分配給特征具有相似表示的相應(yīng)空間區(qū)域。這樣，DRConv在語義變化建模方面優(yōu)于標(biāo)準(zhǔn)卷積。標(biāo)準(zhǔn)卷積層可以增加文件服務(wù)器的數(shù)量以提取更多的可視元素，但會導(dǎo)致較高的計(jì)算成本。更為優(yōu)雅的是，我們的DRConv使用可學(xué)習(xí)的指導(dǎo)將遞增的通道濾波器轉(zhuǎn)移到空間維度，這不僅提高了卷積的表示能力，而且保持了計(jì)算成本和標(biāo)準(zhǔn)卷積劑量的平移不變性。DRConv是處理復(fù)雜多變空間信息分布的一種有效而優(yōu)雅的方法。它可以用即插即用特性代替現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積，特別是在高效網(wǎng)絡(luò)中為卷積層供電。我們在廣泛的模型（MobileNet系列、ShuffleNet V2等）和任務(wù)（分類、人臉識別、檢測和分割）上評估DRConv。在ImageNet分類中，基于DRConv的ShuffleNet V2-0.5x在46M乘加水平上實(shí)現(xiàn)了67.1%的最先進(jìn)性能，相對提高了6.3%。

1.介紹

卷積神經(jīng)網(wǎng)絡(luò)（CNNs）由于其強(qiáng)大的表示能力，在圖像分類、人臉識別、目標(biāo)檢測等許多應(yīng)用領(lǐng)域取得了重大進(jìn)展。CNN強(qiáng)大的表示能力源于不同的濾波器負(fù)責(zé)在不同的抽象級別提取信息。然而，當(dāng)前主流卷積運(yùn)算在空間域中以濾波器共享方式執(zhí)行，因此只有在重復(fù)應(yīng)用這些運(yùn)算時才能捕獲更有效的信息（例如，使用更多濾波器增加信道和深度）。這種重復(fù)的方式有幾個限制。首先，它的計(jì)算效率很低。其次，它會導(dǎo)致優(yōu)化困難，需要仔細(xì)解決[12,31]。

與濾波器共享方法不同，為了對更多的視覺元素進(jìn)行建模，一些研究側(cè)重于通過在空間維度上使用多個濾波器來利用語義信息的多樣性。[9,28]提出了替代卷積，在空間維度的每個像素上都有單獨(dú)的濾波器，為了方便起見，我們將它們統(tǒng)稱為局部卷積。因此，每個位置的特征將被不同地處理，這比標(biāo)準(zhǔn)卷積更有效地提取空間特征。[28,26,25]已經(jīng)展示了局部卷積在人臉識別任務(wù)中的威力。雖然與標(biāo)準(zhǔn)卷積相比，局部卷積并沒有增加計(jì)算復(fù)雜度，但它有兩個致命的缺點(diǎn)。一種是帶來大量的參數(shù)，這些參數(shù)與空間大小成正比。二是局部卷積破壞了平移不變性，這對某些需要平移不變性特征的任務(wù)（例如，局部卷積不適用于分類任務(wù)）是不友好的。這兩種方法都難以在神經(jīng)網(wǎng)絡(luò)中廣泛應(yīng)用。此外，局部卷積仍然在不同樣本之間共享濾波器，這使得它對每個樣本的特定特征不敏感。例如，在人臉識別和目標(biāo)檢測任務(wù)中，存在具有不同姿勢或視點(diǎn)的樣本。因此，跨不同樣本的共享濾波器無法有效地提取自定義特征。

考慮到上述局限性，本文提出了一種新的卷積算法，稱為動態(tài)區(qū)域卷積算法（DRConv），該算法可以通過可學(xué)習(xí)的指令自動將濾波器分配到相應(yīng)的空間維度區(qū)域。因此，DRConv具有強(qiáng)大的語義表示能力，并完美地保持了平移不變性。具體來說，我們設(shè)計(jì)了一個可學(xué)習(xí)的引導(dǎo)掩模模塊，根據(jù)每個輸入圖像的特點(diǎn)自動生成濾波器的區(qū)域共享模式。區(qū)域共享模式意味著我們將空間維度劃分為幾個區(qū)域，每個區(qū)域內(nèi)只共享一個濾波器。針對不同樣本和不同區(qū)域的濾波器根據(jù)相應(yīng)的輸入特征動態(tài)生成，更有效地關(guān)注其自身的重要特征?！?/p>

我們的DRConv的結(jié)構(gòu)如圖1所示。我們應(yīng)用標(biāo)準(zhǔn)卷積從輸入生成引導(dǎo)特征。根據(jù)引導(dǎo)特征，將空間維度劃分為多個區(qū)域?？梢钥闯觯龑?dǎo)遮罩中具有相同顏色的像素附著到相同區(qū)域。在每個共享區(qū)域中，我們應(yīng)用濾波器生成器模塊生成一個濾波器來執(zhí)行二維卷積運(yùn)算。因此需要優(yōu)化的參數(shù)主要集中在濾波器生成器模塊中，其數(shù)量與空間大小無關(guān)。因此，除了顯著提高網(wǎng)絡(luò)性能外，我們的DRConv與局部卷積相比可以大大減少參數(shù)數(shù)量，并且與標(biāo)準(zhǔn)卷積相比幾乎不增加計(jì)算復(fù)雜度。為了驗(yàn)證我們的方法的有效性，我們在幾個不同的任務(wù)上進(jìn)行了一系列的實(shí)證研究，包括圖像分類、人臉識別、目標(biāo)檢測和分割，簡單地用我們的DRConv代替標(biāo)準(zhǔn)卷積。實(shí)驗(yàn)結(jié)果表明，DRConv可以在這些任務(wù)上獲得優(yōu)異的性能。我們還提供了充分的消融研究，以分析我們的DRConv的有效性和魯棒性。

總之，這項(xiàng)工作做出了以下貢獻(xiàn)：，

1.我們提出了一種新的動態(tài)區(qū)域感知卷積算法，它不僅具有強(qiáng)大的語義表示能力，而且能夠很好地保持平移方差特性。

2.我們專門為可學(xué)習(xí)引導(dǎo)掩模設(shè)計(jì)了反向傳播過程，因此我們的區(qū)域共享模式是根據(jù)反向傳播的總體任務(wù)損失梯度來確定和更新的，這意味著我們的方法可以以端到端的方式進(jìn)行優(yōu)化。

3.我們的DRConv可以通過簡單地替換標(biāo)準(zhǔn)卷積而在圖像分類、人臉識別、檢測和分割任務(wù)上實(shí)現(xiàn)優(yōu)異的性能，而不會增加太多的計(jì)算成本。

2.相關(guān)工作

我們從空間相關(guān)工作和動力機(jī)制的角度將我們的工作與其他方法區(qū)分開來。

空間相關(guān)卷積。

從空間相關(guān)卷積設(shè)計(jì)的角度來看，最早的啟示是局部卷積。為了有效地利用圖像數(shù)據(jù)中的語義信息，局部卷積[9]對每個像素應(yīng)用單獨(dú)的非共享濾波器，這在不需要平移方差的任務(wù)中具有很大的潛力。DeepFace[28]和DeepID系列[26,25]展示了局部卷積在人臉識別任務(wù)中的優(yōu)勢。這些工作說明了空間維度的局部分布是重要的。

在檢測等其他任務(wù)上，R-FCN[5]使用基于區(qū)域的完全卷積網(wǎng)絡(luò)來提取局部表示。它將輸出通道放大到3×3倍，然后在不同通道中選擇相應(yīng)的子傳感器組合成3×3塊。在人員重新識別方面，Sun等人[27]應(yīng)用基于部分的卷積來學(xué)習(xí)區(qū)分性部分信息特征，這也可以被視為一種空間相關(guān)卷積。

除了上述方法外，一些研究還試圖改變空間特征以更好地模擬語義變化?？臻g變換網(wǎng)絡(luò)[22]學(xué)習(xí)變換以扭曲特征地圖，但難以訓(xùn)練。Jeon等人[17]介紹了一種稱為主動卷積單元（ACU）的卷積單元，它可以產(chǎn)生不固定的形狀，因?yàn)樗鼈兛梢栽谟?xùn)練期間通過反向傳播學(xué)習(xí)任何形式。ACU使用學(xué)習(xí)偏移量增加卷積中的采樣位置，并且偏移量在訓(xùn)練后變?yōu)殪o態(tài)?？勺冃尉矸e網(wǎng)絡(luò)[6]進(jìn)一步使位置偏移動態(tài)，然后將偏移添加到標(biāo)準(zhǔn)卷積中的常規(guī)網(wǎng)格采樣位置。

與上述研究相比，我們的方法自適應(yīng)地將空間維度劃分為多個區(qū)域，并在每個區(qū)域內(nèi)共享一個濾波器。此外，我們的設(shè)計(jì)還可以保持平移不變性，提取更豐富的信息。

動力機(jī)制。隨著數(shù)據(jù)依賴機(jī)制[1,16,29]的流行，它強(qiáng)調(diào)提取更多的定制特征[22]。對動力機(jī)制的研究將許多任務(wù)推向了新的高度。得益于數(shù)據(jù)依賴機(jī)制，網(wǎng)絡(luò)可以靈活地調(diào)整自身，包括結(jié)構(gòu)和參數(shù)，以自動適應(yīng)各種信息，提高神經(jīng)網(wǎng)絡(luò)的表示能力。

一些方法[2,32]表明，空間維度上的不同區(qū)域在表征學(xué)習(xí)中并不同等重要。例如，重要區(qū)域的激活需要被放大，以便在正向傳播中發(fā)揮主導(dǎo)作用。SKNet[19]設(shè)計(jì)了一個有效的模塊，在通道注意的基礎(chǔ)上明智地選擇合適的接收野，并獲得更好的性能。它動態(tài)地重組網(wǎng)絡(luò)，以便在擴(kuò)張的卷積中獲得不同的感受野[34,35]。在語義分割中，[36]對像素組進(jìn)行關(guān)注，以彌補(bǔ)SENet中空間信息的不足，[15]在每個像素及其周圍像素之間建立鏈接，以捕獲重要信息。注意機(jī)制被設(shè)計(jì)成通過可學(xué)習(xí)的方法動態(tài)校準(zhǔn)前向傳播中的信息流。

從動態(tài)權(quán)重的角度來看，CondConv[33]通過幾個權(quán)重的動態(tài)線性組合來獲得動態(tài)權(quán)重。每個樣本的專門卷積核是以類似于專家混合的方式學(xué)習(xí)的。在空間域中，為了處理對象變形，可變形核[8]直接對原始核空間進(jìn)行重采樣，以適應(yīng)有效感受野（ERF）。局部關(guān)系網(wǎng)絡(luò)[14]基于局部像素對的組合關(guān)系自適應(yīng)地確定空間維度的聚合權(quán)重。非局部[31]操作通過所有位置特征的加權(quán)和計(jì)算每個位置的響應(yīng)，這可以使其捕獲長期依賴性。

與上述動態(tài)方法不同，DRConv應(yīng)用動態(tài)引導(dǎo)掩碼自動確定多個濾波器的分布，以便處理空間語義的可變分布。

3.我們的方法

權(quán)重共享機(jī)制固有地限制了標(biāo)準(zhǔn)卷積來模擬語義變化，因?yàn)閱蝹€濾波器的容量很差。因此，標(biāo)準(zhǔn)卷積必須在通道維度上劇烈增加濾波器的數(shù)量，以匹配更多的空間視覺元素，這是低效的。局部卷積利用了空間信息的多樣性，但犧牲了平移不變性。為了一勞永逸地解決上述限制，我們進(jìn)一步提出了一種可行的解決方案，稱為DRConv，如圖1所示，它不僅通過在空間維度上使用多個濾波器增加了統(tǒng)計(jì)的多樣性，而且還保持了這些具有相似特征的位置的平移不變性。

3.1. 動態(tài)區(qū)域感知卷積

我們首先簡要地描述了標(biāo)準(zhǔn)卷積和基本局部卷積，然后轉(zhuǎn)移到DRConv。為了方便起見，我們省略了核大小和濾波器的步長。標(biāo)準(zhǔn)卷積的輸入可以表示為X∈ ru×V×C，其中U、V、C分別表示高度、寬度和通道。和S∈ ru×V表示空間維度Y∈ 輸出為ru×V×O，W∈ R C用于標(biāo)準(zhǔn)卷積濾波器。對于輸出特征的第o個通道，對應(yīng)的特征映射為

其中? 是二維卷積運(yùn)算。

對于基本的局部卷積，我們使用W∈ ru×V×C表示在空間維度上不共享的濾波器。因此，第o個輸出特征映射可以表示為

其中，W（o）u，v，c表示像素（u，v）處的單個非共享濾波器，這不同于標(biāo)準(zhǔn)卷積。

按照上述公式，我們定義了引導(dǎo)掩模M={S0，···，Sm?1} 表示從空間維度劃分的區(qū)域，其中在區(qū)域St、t中僅共享一個濾波器∈ [0，m? 1]. M是根據(jù)數(shù)據(jù)依賴機(jī)制從輸入特征中學(xué)習(xí)的。我們將這些區(qū)域的濾波器表示為W=[W0，···，Wm?1],

其中濾波器為Wt∈ rc對應(yīng)于區(qū)域St。該層輸出特征圖的第o個通道可以表示為

其中，W（o）t，c表示W(wǎng)（o）t的第c個通道，（u，v）是區(qū)域St中的一個點(diǎn)。需要注意的是，如果核大小大于1×1，我們在這里使用的點(diǎn)（u，v）對應(yīng)于卷積濾波器的中心。這意味著核大小為3×3或5×5的濾波器將提取邊界上相鄰區(qū)域的特征。

一般來說，我們的方法主要分為兩個步驟。首先，我們使用一個可學(xué)習(xí)的引導(dǎo)模板將空間特征劃分為多個跨空間維度的區(qū)域。如圖1所示，引導(dǎo)掩模中具有相同顏色的像素被附加到相同區(qū)域。從圖像語義的角度出發(fā)，將語義相似的特征賦予同一區(qū)域。

其次，在每個共享區(qū)域中，我們使用濾波器生成器模塊生成一個定制的濾波器來執(zhí)行正常的二維卷積運(yùn)算。自定義濾波器可以根據(jù)輸入圖像的重要特征自動調(diào)整。為了更好地解釋我們的方法，我們主要介紹了以下兩個模塊：可學(xué)習(xí)引導(dǎo)掩模和濾波器生成器模塊?？蓪W(xué)習(xí)引導(dǎo)遮罩決定將哪個濾波器分配給哪個區(qū)域。濾波器生成器模塊生成將分配給不同區(qū)域的相應(yīng)濾波器。

3.2. 可學(xué)習(xí)引導(dǎo)掩膜

作為我們提出的DRConv的最重要部分之一，可學(xué)習(xí)引導(dǎo)掩模決定濾波器在空間維度上的分布（哪個濾波器將被分配到哪個區(qū)域），并通過損失函數(shù)進(jìn)行優(yōu)化。因此，濾波器可以自動適應(yīng)每個輸入的空間信息的變化，并且濾波器分布將相應(yīng)地變化。具體而言，對于具有m個共享區(qū)域的k×k DRConv，我們應(yīng)用k×k標(biāo)準(zhǔn)卷積產(chǎn)生具有m個通道（k表示核大小）的引導(dǎo)特征。我們使用F∈ ru×V×m表示引導(dǎo)特征，m∈ 用于引導(dǎo)掩模的ru×V。對于空間域中的每個位置（u，v），我們有

其中argmax（·）輸出最大值的索引和Fu，v表示位置（u，v）處引導(dǎo)特征的向量，具有m個元素。因此，引導(dǎo)遮罩中的值從0到m不等? 1并指出應(yīng)在相應(yīng)位置使用的濾波器的索引。

為了使導(dǎo)向掩?？蓪W(xué)習(xí)，我們必須得到產(chǎn)生導(dǎo)向特征的權(quán)重梯度。然而，導(dǎo)向特征沒有梯度，導(dǎo)致相關(guān)參數(shù)無法更新。因此，我們以另一種方式為引導(dǎo)特征設(shè)計(jì)近似梯度，如圖2（a）所示。我們將詳細(xì)解釋正向和反向傳播。

正向傳播：

由于我們有等式（4）中的引導(dǎo)掩模，我們可以得到每個位置（u，v）的濾波器W?u，v作為流動：

其中WMu，v是濾波器[W0，···，Wm]之一?1] 由G（·）和Mu生成，v是位置（u，v）處引導(dǎo)特征F的通道尺寸最大值的索引。這樣，m個濾波器將與所有位置建立對應(yīng)關(guān)系，并且整個空間像素可以劃分為m個組。這些使用相同濾波器的像素具有相似的上下文，因?yàn)榫哂衅揭撇蛔冃缘臉?biāo)準(zhǔn)卷積將其信息傳遞給引導(dǎo)特征。

反向傳播：

如圖2（a）所示，我們首先引入F?，它是在反向傳播中對引導(dǎo)掩模的一個熱形式（例如，μ，v=2，m=5，μ，v的一個熱形式是[0,0,1,0,0]）的替換，

式（6）為Softmax（·）函數(shù)，用于引導(dǎo)特征F穿過通道尺寸。在SOFTmax操作下，我們期望F?j u，v盡可能接近0或1。結(jié)果，F(xiàn)?j u，v和引導(dǎo)掩模的一個熱形式之間的間隙變得非常小。此外，式（5）中的W?u，v可視為濾波器[W0，··，Wm]?1] 乘以Mu，v的一個熱形式，可近似為[F?0 u，v，··，F(xiàn)?m?1 u，v]。那么F?j u，v的梯度可以通過式中h，i表示點(diǎn)積，5·L表示張量相對于損失函數(shù)的梯度得到。如圖2（a）所示，等式（7）是等式（5）的近似反向傳播。

其中o表示元素對元素的乘法，等式（8）正好是等式（6）的反向傳播。如果我們不設(shè)計(jì)特殊的反向傳播，SGD無法優(yōu)化相關(guān)參數(shù)，因?yàn)楹瘮?shù)argmax（·）是不可微的，并且會阻止梯度的傳播。因此，SOFTMAX（·）函數(shù)被用作反向傳播中argmax（·）的近似替換，它是可微的，將縮小兩個函數(shù)輸出之間的差距。更重要的是，我們可以利用它將梯度轉(zhuǎn)換為引導(dǎo)特征，從而優(yōu)化引導(dǎo)掩模。

3.3. 動態(tài)濾波器：濾波器生成器模塊

在我們的DRConv中，多個濾波器將分配給不同的區(qū)域。濾波器生成器模塊用于為這些區(qū)域生成濾波器。由于不同圖像之間特征的多樣性，跨圖像的共享濾波器不足以有效地關(guān)注圖像自身的特征。例如在人臉識別和目標(biāo)檢測任務(wù)中具有不同姿勢和視點(diǎn)的圖像，需要定制哪些特征來關(guān)注每個圖像的特定特征。

按照上面使用的符號，我們將輸入表示為X∈ 濾波器發(fā)生器模塊的ru×V×C和G（·），主要包括兩個卷積層。m個濾波器表示為W=[W0，···，Wm?1] 并且每個濾波器僅在一個區(qū)域Rt中共享。如圖2（b）所示，為了獲得核大小為k×k的m個濾波器，我們使用自適應(yīng)平均池將樣本X降到大小為k×k。然后我們應(yīng)用兩個連續(xù)的1×1卷積層：第一層使用sigmoid（·）作為激活函數(shù)，第二層使用group=m不使用激活函數(shù)。濾波器生成器模塊可以增強(qiáng)捕獲不同圖像特定特征的能力。如圖2（b）所示，卷積濾波器分別基于每個樣本的特征進(jìn)行預(yù)測。因此，每個濾波器都可以根據(jù)各自的特性進(jìn)行自動調(diào)整。

4.實(shí)驗(yàn)

在本節(jié)中，我們將通過將我們提出的DRConv嵌入現(xiàn)有的流行神經(jīng)網(wǎng)絡(luò)（包括ShuffleNet V2[21]和MobileNet系列[13,24]）來證明其有效性。我們將DRConv與ImageNet[23]、MS1M-V2[10]和COCO上現(xiàn)有的最新技術(shù)在圖像分類、人臉識別、目標(biāo)檢測和分割方面進(jìn)行了比較。除非另有規(guī)定，DRConv的所有實(shí)驗(yàn)均基于8-可學(xué)習(xí)區(qū)域（即m=8）。

4.1. 分類

ImageNet 2012數(shù)據(jù)集[23]是一個被廣泛接受的權(quán)威圖像分類數(shù)據(jù)集，由128萬張訓(xùn)練圖像和1000個類別的50k驗(yàn)證圖像組成。按照主流工作，所有模型都在整個訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練，并通過單作物top-1驗(yàn)證集精度進(jìn)行評估。對于訓(xùn)練和評估，輸入圖像分辨率為224×224。訓(xùn)練設(shè)置如下[21]，我們實(shí)驗(yàn)中的所有模型都經(jīng)過240個時期的訓(xùn)練，學(xué)習(xí)率從0.5開始，線性下降到0。

為了證明DRConv的有效性，我們將DRConv與最先進(jìn)的方法進(jìn)行了比較，包括[8,33]。結(jié)果如表1所示。例如，在第一列中，CondConv-ShuffleNetV2表示ShuffleNetV2中的所有1×1標(biāo)準(zhǔn)卷積都被CondConv替換[33]。對于基于DRConv的模型，我們用DRConv替換主干中的所有1×1標(biāo)準(zhǔn)卷積?？梢钥闯?，在計(jì)算成本相當(dāng)?shù)那闆r下，DRCONVShuffleNet V2在0.5倍和1倍尺度下分別比ShuffleNet V2獲得6.3%和3.6%的增益。DRConv-MobileNetV2比MobileNetV2獲得3.7%的增益，DRConv-MobileNetV1比基線MobileNetV1獲得4.9%的增益。我們還通過使用較少的計(jì)算成本來評估我們的方法，并發(fā)現(xiàn)我們在使用較少的計(jì)算方面仍然比CondConv有優(yōu)勢，如標(biāo)記為的模型所示?. 這些實(shí)驗(yàn)結(jié)果表明，基于DRConv的網(wǎng)絡(luò)不僅比基線有很大的改進(jìn)，而且比最新的方法有很大的改進(jìn)，證明了我們方法的有效性。

作為其他一些任務(wù)的基礎(chǔ)，分類需要提取盡可能多的信息來預(yù)測圖像的標(biāo)簽，因?yàn)镮mageNet數(shù)據(jù)集中有大量的類別。傳統(tǒng)的大型網(wǎng)絡(luò)由于其巨大的深度和廣度，可以實(shí)現(xiàn)最先進(jìn)的狀態(tài)。對于實(shí)際應(yīng)用中的高效網(wǎng)絡(luò)，在有限的深度和寬度約束下，需要提高提取有用信息的效率。因此，我們設(shè)計(jì)了DRConv，以充分利用空間信息的多樣性，在不增加額外計(jì)算成本的情況下，增強(qiáng)表示能力?？臻g信息的多重過濾策略意味著它可以匹配更多的信息模式。

4.2. 人臉識別

我們使用MobileFaceNet[3]作為主干網(wǎng)，它只有1M個參數(shù)和189M個MADD，輸入大小為112×96。為了保持訓(xùn)練的穩(wěn)定性，在我們的實(shí)現(xiàn)中，我們將Arcface損耗[7]替換為AM Softmax損耗[30]。我們用于訓(xùn)練的數(shù)據(jù)集是MS1M-V2，它是一個大規(guī)模人臉數(shù)據(jù)集，包含85k名人的580萬張圖像。它是MS-Celeb-1M數(shù)據(jù)集[10]的半自動改進(jìn)版，由100k身份的1M照片組成，并有大量嘈雜的圖像或錯誤的ID標(biāo)簽。我們用于評估的數(shù)據(jù)集是MegaFace[18]，其中包括1M張60k身份的圖像作為庫集，100k張來自FaceScrub的530個身份的圖像作為探測集。出于同樣的原因，它也是通過手動清除的改進(jìn)版本。

培訓(xùn)和評估：我們使用動量為0.9的SGD優(yōu)化模型，批量大小為512。我們?yōu)?20k次迭代訓(xùn)練所有模型。學(xué)習(xí)速率從0.1開始，在252k、364k和406k迭代時除以10。權(quán)重衰減的設(shè)置如下[3]。對于評估，我們使用人臉識別度量作為評估指標(biāo)，該度量是指MegaFace上排名1的準(zhǔn)確度。

為了驗(yàn)證DRConv的有效性，我們將DRConv與幾種相關(guān)方法進(jìn)行了比較?；贛obileFaceNet主干網(wǎng)，我們簡單地用DRConv替換所有瓶頸塊中的1×1標(biāo)準(zhǔn)卷積。如表2所示，DRConv MobileFaceNet的性能比基線高出4.9%，比CondConv高出1.4%。為了進(jìn)一步的比較，我們選擇了局部卷積算法，該算法適用于人臉識別，但需要大量的參數(shù)。在設(shè)備內(nèi)存的限制下，我們在最后三層應(yīng)用了局部卷積。DRConv-MobileFaceNet比Local-MobileFaceNet（在MobileFaceNet中使用局部卷積）的準(zhǔn)確率高1.3%，進(jìn)一步表明了我們提出的DRConv的優(yōu)越性。由于人臉數(shù)據(jù)集中局部統(tǒng)計(jì)信息的空間平穩(wěn)性，DRConv的引導(dǎo)掩碼模塊可以學(xué)習(xí)到清晰的語義模式。如圖3所示，面部組件出現(xiàn)在這些引導(dǎo)掩膜中。

4.3. COCO目標(biāo)檢測與分割

我們進(jìn)一步評估了DRConv在目標(biāo)檢測和分割方面的有效性。我們使用COCO數(shù)據(jù)集，該數(shù)據(jù)集由80k列車圖像和40k val圖像組成。與以前的許多工作一樣，我們在80k列車圖像和35k val圖像子集（不包括5k minival圖像）的并集上進(jìn)行訓(xùn)練，在此基礎(chǔ)上評估我們的DRConv。

在實(shí)驗(yàn)中，我們使用DetNAS-300M[4]和Mask R-CNN[11]框架，以FPN[20]和4conv1fc盒式磁頭為基礎(chǔ)來評估我們的方法。權(quán)重分別由在ImageNet數(shù)據(jù)集[23]上訓(xùn)練并用作特征提取器的ClsNASNet[4]和ResNet50[12]的參數(shù)初始化。在DetNAS-300M中，訓(xùn)練設(shè)置如下[4]。在Mask RCNN中，頭部中可能對象的建議數(shù)設(shè)置為512。我們在8GPU上訓(xùn)練檢測和分割網(wǎng)絡(luò)，批量大小為16，迭代次數(shù)為180k。開始時，我們用因子0.33預(yù)熱網(wǎng)絡(luò)，進(jìn)行500次迭代。在訓(xùn)練過程中，我們使用學(xué)習(xí)率0.2，并在120k、140k和150k迭代時將學(xué)習(xí)率衰減0.1倍。

我們的目標(biāo)是評估當(dāng)我們用DRConv替換DetNAS-300M主干中的1×1標(biāo)準(zhǔn)卷積和掩模R-CNN FPN中的兩層時的效果，因此性能的任何改善都可以歸因于我們的DRConv的有效性。此外，我們將4-learnable-region、8-learnable-region和16-learnable-region設(shè)置應(yīng)用于DRConv，以分析不同區(qū)域數(shù)的影響。

將我們的DRConv與標(biāo)準(zhǔn)卷積進(jìn)行比較的結(jié)果如表3所示。從結(jié)果可以看出，DetNAS-300M中有8個區(qū)域的DRConv可以顯著提高檢測性能1.8%，根據(jù)COCO的標(biāo)準(zhǔn)AP度量，只有掩模R-CNN FPN中有16個區(qū)域的兩個DRConv層可以提高檢測性能1.2%，提高分割性能1.1%。DRConv利用引導(dǎo)掩碼將空間維度劃分為多個組，以便每個濾波器可以關(guān)注特定的上下文。另一方面，類似噪聲的背景可以很容易地從其他感興趣的區(qū)域中分離出來，并且大多數(shù)濾波器可以集中在重要區(qū)域。結(jié)果表明，對于不同數(shù)量的共享區(qū)域，當(dāng)我們將空間維度劃分為更多的區(qū)域時，DRConv可以獲得更好的性能。劃分的區(qū)域越多，每個組的上下文就越專用，每個濾波器就越容易優(yōu)化。

5.燒蝕研究

消融實(shí)驗(yàn)在分類（ImageNet 2012[23]）和人臉識別（MS1M-V2[10]）上進(jìn)行。實(shí)驗(yàn)設(shè)置與第4節(jié)相同。在這一部分中，我們分析了可學(xué)習(xí)引導(dǎo)掩碼的語義信息，以及不同模型大小的影響。補(bǔ)充材料中分析了不同區(qū)域數(shù)和不同空間大小對DRConv的影響。

動態(tài)引導(dǎo)掩模的可視化。

為了探索該方法中可學(xué)習(xí)引導(dǎo)蒙版的機(jī)理，我們分別在分類任務(wù)和人臉識別任務(wù)中對圖像進(jìn)行m=4的引導(dǎo)蒙版可視化。圖3顯示了我們的方法成功地將濾波器分配給具有相同語義的區(qū)域。換言之，我們可以了解不同區(qū)域根據(jù)圖像語義使用不同的濾波器，這是合理和有效的。由于更清晰的語義表示，引導(dǎo)掩碼可以自動在更深的層中形成更少的區(qū)域。

需要注意的是，引導(dǎo)掩模完全由空間信息分布決定，因此一個區(qū)域可能是連接點(diǎn)或離散點(diǎn)。淺層中的區(qū)域點(diǎn)往往是離散的，因?yàn)樘卣髋c輸入圖像的詳細(xì)上下文更相關(guān)。深層區(qū)域的點(diǎn)往往是連接的，因?yàn)檫@些點(diǎn)有一個更大的感受野，這與語義信息更相關(guān)。

不同型號。

除上述研究外，我們還對DRConv在不同模型尺寸下的性能進(jìn)行了燒蝕研究。在ImageNet數(shù)據(jù)集上，我們對ShuffleNet V2的[0.5×、1×、1.5×、2×]和MobileNet V2的[0.25×、0.5×、0.75×、1×]進(jìn)行了實(shí)驗(yàn)，以分析我們的DRConv的有效性。從圖4所示的實(shí)驗(yàn)結(jié)果來看，使用DRConv的小型模型將比大型模型獲得更多的獎金。顯然，小模型在每一層中的輸入通道和濾波器較少，并且不能為下一層提取足夠的特征。通過用DRConv取代標(biāo)準(zhǔn)卷積，小型模型將顯著提高其建模語義信息的能力，從而獲得更好的性能。

6.結(jié)論

在本文中，我們提出了一種新的卷積，稱為動態(tài)區(qū)域感知卷積（DRConv），該卷積由空間域中的部分濾波器共享激勵，并成功地保持了平移不變性。因此，我們提出的DRConv可以完全替代任何現(xiàn)有網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積。我們設(shè)計(jì)了一個小的可學(xué)習(xí)模塊來預(yù)測引導(dǎo)掩碼，用于指導(dǎo)濾波器的分配，從而保證區(qū)域內(nèi)相似的特征可以匹配相同的濾波器。此外，我們還設(shè)計(jì)了濾波器生成器模塊，為每個樣本生成定制的濾波器，這使得不同的輸入可以使用自己的專用濾波器。在多個不同任務(wù)上的綜合實(shí)驗(yàn)表明了我們的DRConv的有效性，它在分類、人臉識別、目標(biāo)檢測和分割方面優(yōu)于最新技術(shù)和其他優(yōu)秀的手動設(shè)計(jì)方法。我們在燒蝕研究中的實(shí)驗(yàn)表明，可學(xué)習(xí)引導(dǎo)掩模在每個樣本的濾波器分布中起著關(guān)鍵作用，這有助于獲得更好的性能。

參考文獻(xiàn)：

[8] Hang Gao, Xizhou Zhu, Steve Lin, and Jifeng Dai. Deformable kernels: Adapting effective receptive fields for object deformation. arXiv preprint arXiv:1910.02940, 2019.

[9] Karo Gregor and Yann LeCun. Emergence of complexlike cells in a temporal product network with local receptive fields. arXiv preprint arXiv:1006.0448, 2010. 1

[14] Han Hu, Zheng Zhang, Zhenda Xie, and Stephen Lin. Local relation networks for image recognition. In IEEE International Conference on Computer Vision (ICCV), pages 3464–3473, 2019.

[25] Yi Sun, Yuheng Chen, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation by joint identificationverification. In Advances in Neural Information Processing Systems (NeurIPS), pages 1988–1996, 2014. 1, 2??

[26] Yi Sun, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation from predicting 10,000 classes. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1891–1898, 2014. 1, 2? ?

[28] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior?Wolf. Deepface: Closing the gap to human-level performance in face verification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1701–1708, 2014. 1

[31] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7794–7803, 2018.

[36] Zilong Zhong, Zhong Qiu Lin, Rene Bidart, Xiaodan Hu,Ibrahim Ben Daya, Jonathan Li, and Alexander Wong. Squeeze-and-attention networks for semantic segmentation. arXiv preprint arXiv:1909.03402, 2019. 3

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

動態(tài)區(qū)域感知卷積（DRConv）

動態(tài)區(qū)域感知卷積（DRConv）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

動態(tài)區(qū)域感知卷積（DRConv）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av