CVPR2020部分文章略讀

本部分是筆者對(duì)CVPR2020部分感興趣的文章的略讀,大致包括圖像分類、檢測(cè)以及分割三個(gè)主題,由于是略讀,因此不會(huì)對(duì)文章進(jìn)行細(xì)致的分析,而只會(huì)大體闡述實(shí)現(xiàn)的方法。

圖像分類:

1、GhostNet: More Features from Cheap Operations

研究問(wèn)題:

CNN中隨著卷積的進(jìn)行,通道數(shù)越來(lái)越多,網(wǎng)絡(luò)的性能就依賴于這些高度冗余的特征圖,以往的卷積方式計(jì)算較為復(fù)雜,因此本文希望找到一種計(jì)算更為簡(jiǎn)單的替代方式來(lái)產(chǎn)生這些冗余的特征圖。

實(shí)現(xiàn)方式:

首先分析基本結(jié)構(gòu),ghost模塊分為兩步操作,第一步先使用卷積操作,減少了通道,為的是減少運(yùn)算量,第二步較為巧妙,對(duì)每個(gè)通道的特征圖都進(jìn)行了卷積操作,生成s-1個(gè)特征圖,m個(gè)特征圖共生成m*(s-1)個(gè),再堆疊上原來(lái)的特征圖,通道數(shù)為m,總共生成的通道數(shù)為m*s=n,達(dá)到了跟普通卷積一樣的結(jié)果,但沒(méi)有使用逐點(diǎn)卷積,大大減少了計(jì)算量。

網(wǎng)絡(luò)的設(shè)計(jì)借鑒了MobileNet網(wǎng)絡(luò),也是一種倒置殘差結(jié)構(gòu),值得注意的是,文章也引入了一個(gè)寬度因子來(lái)控制通道的層數(shù),用來(lái)減少運(yùn)算量??偟膩?lái)說(shuō),性能要超出MobileNet網(wǎng)絡(luò)與ShuffleNet網(wǎng)絡(luò)。

2、Self-training with Noisy Student improves ImageNet classificatio

研究問(wèn)題:

利用自訓(xùn)練的方式,通過(guò)利用已標(biāo)記的數(shù)據(jù)以及未標(biāo)記的數(shù)據(jù)訓(xùn)練出一個(gè)強(qiáng)大的網(wǎng)絡(luò)。

實(shí)現(xiàn)方式:

知識(shí)蒸餾是通過(guò)一個(gè)性能強(qiáng)大的teacher網(wǎng)絡(luò),訓(xùn)練出一個(gè)較小的student網(wǎng)絡(luò),性能可能略遜色于teacher網(wǎng)絡(luò),但復(fù)雜度大大減少。本文與知識(shí)蒸餾的逆過(guò)程相類似,示意圖如下:

首先利用已標(biāo)記好的數(shù)據(jù)訓(xùn)練一個(gè)teacher網(wǎng)絡(luò),之后將未標(biāo)記的數(shù)據(jù)送進(jìn)teacher網(wǎng)絡(luò)中,產(chǎn)生偽標(biāo)簽,再找到一個(gè)起碼性能起碼不遜色與teacher網(wǎng)絡(luò)的student網(wǎng)絡(luò),將已標(biāo)記數(shù)據(jù)與帶有偽標(biāo)簽的數(shù)據(jù)混合進(jìn)行訓(xùn)練,訓(xùn)練好了之后再將student網(wǎng)絡(luò)當(dāng)作teacher網(wǎng)絡(luò)重復(fù)這個(gè)過(guò)程。需要注意的是,本文的一大創(chuàng)新點(diǎn)就是在student網(wǎng)絡(luò)訓(xùn)練的過(guò)程中引入了噪聲,使得訓(xùn)出來(lái)的網(wǎng)絡(luò)更加魯棒,更加強(qiáng)大;噪聲又分為輸入噪聲與模型噪聲,輸入噪聲通過(guò)隨機(jī)增強(qiáng)得到,可以鼓勵(lì)模型預(yù)測(cè)一些更難的圖像,而模型噪聲通過(guò)dropout與隨機(jī)深度函數(shù)得到,可以迫使網(wǎng)絡(luò)進(jìn)行類似于集成學(xué)習(xí)的學(xué)習(xí)。此外,本文還使用了數(shù)據(jù)過(guò)濾來(lái)過(guò)濾那些teacher模型表現(xiàn)不好的圖像,數(shù)據(jù)平衡來(lái)確保各個(gè)類別的圖片數(shù)量大致相等。


其他:

1、Designing Network Design Spaces

研究問(wèn)題:通過(guò)搜索設(shè)計(jì)空間,找到設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的一套通用的法則

實(shí)現(xiàn)方式:

神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索是為了某個(gè)任務(wù)搜索到最佳的神經(jīng)網(wǎng)絡(luò)架構(gòu),而本文則是想搜索到通用的神經(jīng)網(wǎng)絡(luò)架構(gòu)。設(shè)計(jì)空間是非常龐大的,因此本文使用的方法是采樣,并通過(guò)錯(cuò)誤經(jīng)驗(yàn)分布來(lái)比較性能,不斷的縮小范圍,最終找到答案。所采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示:

主要區(qū)別在body網(wǎng)絡(luò)的設(shè)計(jì),主要有以下四個(gè)參數(shù):塊的數(shù)目d_i,通道的寬度w_i,瓶頸層比率b_i跟組寬度g_i(即組卷積用的組數(shù)),經(jīng)過(guò)測(cè)試,發(fā)現(xiàn)共享瓶頸層比率以及組寬度最佳,并且,塊的數(shù)目以及通道的寬度應(yīng)該逐漸增加。這里使用了線性函數(shù)建模了block深度與寬度的關(guān)系:u_j=w_0+w_a*j這里w_0是初始化的寬度,w_a是斜率,具體可見論文。為了量化u_j,引入額外的變量,有:

因此,這里主要搜索w_0,w_a,w_m,通過(guò)實(shí)驗(yàn)有以下結(jié)論可供參考:

1)網(wǎng)絡(luò)不是越深越好,20個(gè)block左右較為合適

2)瓶頸層比率設(shè)為1最佳

3)寬度w_m因子設(shè)為2.5為宜

4)其余參數(shù)最好隨著網(wǎng)絡(luò)增大而增大

5)速度用activations衡量最好(即所有卷積層輸出tensor大?。?/p>

2、Circle Loss: A Unified Perspective of Pair Similarity Optimization

研究問(wèn)題:無(wú)論是分類還是回歸,我們所要求的無(wú)非就是類內(nèi)相似度足夠大,類間相似度足夠小,文章基于這個(gè)問(wèn)題,提出了一種基于對(duì)的統(tǒng)一的相似性優(yōu)化方法。

實(shí)現(xiàn)方式:

類內(nèi)相似性用s_p
來(lái)表示,類間相似性用s_n來(lái)表示,所以需要最小化s_n -s_p,直接優(yōu)化會(huì)出現(xiàn)兩個(gè)問(wèn)題,一個(gè)是類內(nèi)相似性與類間相似性的比重一樣,這樣基于梯度進(jìn)行優(yōu)化的幅度是一樣的,較為的低效,另一個(gè)是收斂狀態(tài)模糊,雖然差值一樣但s_ps_n具體的值可能不一樣,解決的方法是對(duì)兩個(gè)分布賦予一個(gè)權(quán)重,即{\alpha _n}{s_n} - {\alpha _p}{s_p},

首先給出統(tǒng)一的損失函數(shù)公式:

\displaylines{
  {{\cal L}_{uni}} = \log [1 + \sum\limits_{i = 1}^K {\sum\limits_{j = 1}^L {\exp (\gamma (s_n^j - s_p^i + m))} } ] \cr 
   = \log [1 + \sum\limits_{j = 1}^L {\exp (\gamma (s_n^j + m))\sum\limits_{i = 1}^K {\exp (\gamma ( - s_p^i))} } ] \cr}

此公式可以降級(jí)成其他損失函數(shù),這里不展開。將上式換成circle loss的形式,則:

\begin{gathered}
  {\mathcal{L}_{circle}} = \log [1 + \sum\limits_{i = 1}^K {\sum\limits_{j = 1}^L {\exp (\gamma (\alpha _n^js_n^j - \alpha _p^is_p^i))} } ] \\ 
   = \log [1 + \sum\limits_{j = 1}^L {\exp (\gamma (\alpha _n^js_n^j))\sum\limits_{i = 1}^K {\exp ( - \gamma \alpha _p^is_p^i)} } ] \\ 
\end{gathered}

規(guī)定,無(wú)論是類間相似度還是類內(nèi)相似度,如果偏離最優(yōu)值越大,那么懲罰力度就越大,因此有:

\left\{ {\begin{array}{*{20}{c}}
  {\alpha _p^i = {{[{O_p} - s_p^i]}_ + }} \\ 
  {\alpha _n^j = {{[s_n^j - {O_n}]}_ + }} 
\end{array}} \right.\

其中+代表從0截?cái)?,代表取值非?fù)。另外,s_ps_n非對(duì)稱,因此各自定義余量,有:

{\mathcal{L}_{circle}} = \log [1 + \sum\limits_{j = 1}^L {\exp (\gamma \alpha _n^j(s_n^j - {\Delta _n}))\sum\limits_{i = 1}^K {\exp ( - \gamma \alpha _p^i(s_p^i - {\Delta _p}))} } ]

考慮簡(jiǎn)單的二分類情況,令
\exp (.)\為1,有:{\alpha _n}({s_n} - {\Delta _n}) - {\alpha _p}({s_p} - {\Delta _p}) = 0\

帶入權(quán)重則有:({s_n} - \frac{{{O_n} + {\Delta _n}}}{2})^2 + ({s_p} - \frac{{{O_p} + {\Delta _p}}}{2})^2 = C,C = ({({O_n} - {\Delta _n})^2} + {({O_p} - {\Delta _p})^2})/4

顯然,其決策邊界是一個(gè)圓,通過(guò)設(shè)置
{O_p} = 1 + m,{O_n} =  - m,{\Delta _p} = 1 - m,{\Delta _n} = m

{({s_n} - 0)^2} + {({s_p} - 1)^2} = 2{m^2},即優(yōu)化目標(biāo)為類間相似度為0,類內(nèi)相似度為1。換言之,我們期望s_p^i \to 1 - m,s_n^j \to m。

至此,circle loss中只有兩個(gè)超參數(shù),即\gamma m

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容