本部分是筆者對(duì)CVPR2020部分感興趣的文章的略讀，大致包括圖像分類、檢測(cè)以及分割三個(gè)主題，由于是略讀，因此不會(huì)對(duì)文章進(jìn)行細(xì)致的分析，而只會(huì)大體闡述實(shí)現(xiàn)的方法。

圖像分類：

1、GhostNet: More Features from Cheap Operations

研究問(wèn)題：

CNN中隨著卷積的進(jìn)行，通道數(shù)越來(lái)越多，網(wǎng)絡(luò)的性能就依賴于這些高度冗余的特征圖，以往的卷積方式計(jì)算較為復(fù)雜，因此本文希望找到一種計(jì)算更為簡(jiǎn)單的替代方式來(lái)產(chǎn)生這些冗余的特征圖。

實(shí)現(xiàn)方式：

首先分析基本結(jié)構(gòu)，ghost模塊分為兩步操作，第一步先使用卷積操作，減少了通道，為的是減少運(yùn)算量，第二步較為巧妙，對(duì)每個(gè)通道的特征圖都進(jìn)行了卷積操作，生成 $s-1$ 個(gè)特征圖， $m$ 個(gè)特征圖共生成 $m*(s-1)$ 個(gè)，再堆疊上原來(lái)的特征圖，通道數(shù)為 $m$ ，總共生成的通道數(shù)為 $m*s=n$ ，達(dá)到了跟普通卷積一樣的結(jié)果，但沒(méi)有使用逐點(diǎn)卷積，大大減少了計(jì)算量。

網(wǎng)絡(luò)的設(shè)計(jì)借鑒了MobileNet網(wǎng)絡(luò)，也是一種倒置殘差結(jié)構(gòu)，值得注意的是，文章也引入了一個(gè)寬度因子來(lái)控制通道的層數(shù)，用來(lái)減少運(yùn)算量?？偟膩?lái)說(shuō)，性能要超出MobileNet網(wǎng)絡(luò)與ShuffleNet網(wǎng)絡(luò)。

2、Self-training with Noisy Student improves ImageNet classificatio

研究問(wèn)題：

利用自訓(xùn)練的方式，通過(guò)利用已標(biāo)記的數(shù)據(jù)以及未標(biāo)記的數(shù)據(jù)訓(xùn)練出一個(gè)強(qiáng)大的網(wǎng)絡(luò)。

實(shí)現(xiàn)方式：

知識(shí)蒸餾是通過(guò)一個(gè)性能強(qiáng)大的teacher網(wǎng)絡(luò)，訓(xùn)練出一個(gè)較小的student網(wǎng)絡(luò)，性能可能略遜色于teacher網(wǎng)絡(luò)，但復(fù)雜度大大減少。本文與知識(shí)蒸餾的逆過(guò)程相類似，示意圖如下：

首先利用已標(biāo)記好的數(shù)據(jù)訓(xùn)練一個(gè)teacher網(wǎng)絡(luò)，之后將未標(biāo)記的數(shù)據(jù)送進(jìn)teacher網(wǎng)絡(luò)中，產(chǎn)生偽標(biāo)簽，再找到一個(gè)起碼性能起碼不遜色與teacher網(wǎng)絡(luò)的student網(wǎng)絡(luò)，將已標(biāo)記數(shù)據(jù)與帶有偽標(biāo)簽的數(shù)據(jù)混合進(jìn)行訓(xùn)練，訓(xùn)練好了之后再將student網(wǎng)絡(luò)當(dāng)作teacher網(wǎng)絡(luò)重復(fù)這個(gè)過(guò)程。需要注意的是，本文的一大創(chuàng)新點(diǎn)就是在student網(wǎng)絡(luò)訓(xùn)練的過(guò)程中引入了噪聲，使得訓(xùn)出來(lái)的網(wǎng)絡(luò)更加魯棒，更加強(qiáng)大；噪聲又分為輸入噪聲與模型噪聲，輸入噪聲通過(guò)隨機(jī)增強(qiáng)得到，可以鼓勵(lì)模型預(yù)測(cè)一些更難的圖像，而模型噪聲通過(guò)dropout與隨機(jī)深度函數(shù)得到，可以迫使網(wǎng)絡(luò)進(jìn)行類似于集成學(xué)習(xí)的學(xué)習(xí)。此外，本文還使用了數(shù)據(jù)過(guò)濾來(lái)過(guò)濾那些teacher模型表現(xiàn)不好的圖像，數(shù)據(jù)平衡來(lái)確保各個(gè)類別的圖片數(shù)量大致相等。

其他：

1、Designing Network Design Spaces

研究問(wèn)題：通過(guò)搜索設(shè)計(jì)空間，找到設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的一套通用的法則

實(shí)現(xiàn)方式：

神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索是為了某個(gè)任務(wù)搜索到最佳的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而本文則是想搜索到通用的神經(jīng)網(wǎng)絡(luò)架構(gòu)。設(shè)計(jì)空間是非常龐大的，因此本文使用的方法是采樣，并通過(guò)錯(cuò)誤經(jīng)驗(yàn)分布來(lái)比較性能，不斷的縮小范圍，最終找到答案。所采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示：

主要區(qū)別在body網(wǎng)絡(luò)的設(shè)計(jì)，主要有以下四個(gè)參數(shù)：塊的數(shù)目 $d_i$ ，通道的寬度 $w_i$ ，瓶頸層比率 $b_i$ 跟組寬度 $g_i$ （即組卷積用的組數(shù)），經(jīng)過(guò)測(cè)試，發(fā)現(xiàn)共享瓶頸層比率以及組寬度最佳，并且，塊的數(shù)目以及通道的寬度應(yīng)該逐漸增加。這里使用了線性函數(shù)建模了block深度與寬度的關(guān)系： $u_j=w_0+w_a*j$ 這里 $w_0$ 是初始化的寬度， $w_a$ 是斜率，具體可見論文。為了量化 $u_j$ ，引入額外的變量，有：

因此，這里主要搜索 $w_0,w_a,w_m$ ，通過(guò)實(shí)驗(yàn)有以下結(jié)論可供參考：

1）網(wǎng)絡(luò)不是越深越好，20個(gè)block左右較為合適

2）瓶頸層比率設(shè)為1最佳

3）寬度 $w_m$ 因子設(shè)為2.5為宜

4）其余參數(shù)最好隨著網(wǎng)絡(luò)增大而增大

5）速度用activations衡量最好（即所有卷積層輸出tensor大?。?/p>

2、Circle Loss: A Unified Perspective of Pair Similarity Optimization

研究問(wèn)題：無(wú)論是分類還是回歸，我們所要求的無(wú)非就是類內(nèi)相似度足夠大，類間相似度足夠小，文章基于這個(gè)問(wèn)題，提出了一種基于對(duì)的統(tǒng)一的相似性優(yōu)化方法。

實(shí)現(xiàn)方式：

類內(nèi)相似性用 $s_p$ 來(lái)表示，類間相似性用 $s_n$ 來(lái)表示，所以需要最小化 $s_n -s_p$ ，直接優(yōu)化會(huì)出現(xiàn)兩個(gè)問(wèn)題，一個(gè)是類內(nèi)相似性與類間相似性的比重一樣，這樣基于梯度進(jìn)行優(yōu)化的幅度是一樣的，較為的低效，另一個(gè)是收斂狀態(tài)模糊，雖然差值一樣但 $s_p$ 與 $s_n$ 具體的值可能不一樣，解決的方法是對(duì)兩個(gè)分布賦予一個(gè)權(quán)重，即 ${\alpha _n}{s_n} - {\alpha _p}{s_p}$ ，

首先給出統(tǒng)一的損失函數(shù)公式：

$\displaylines{ {{\cal L}_{uni}} = \log [1 + \sum\limits_{i = 1}^K {\sum\limits_{j = 1}^L {\exp (\gamma (s_n^j - s_p^i + m))} } ] \cr = \log [1 + \sum\limits_{j = 1}^L {\exp (\gamma (s_n^j + m))\sum\limits_{i = 1}^K {\exp (\gamma ( - s_p^i))} } ] \cr}$

此公式可以降級(jí)成其他損失函數(shù)，這里不展開。將上式換成circle loss的形式，則：

$\begin{gathered} {\mathcal{L}_{circle}} = \log [1 + \sum\limits_{i = 1}^K {\sum\limits_{j = 1}^L {\exp (\gamma (\alpha _n^js_n^j - \alpha _p^is_p^i))} } ] \\ = \log [1 + \sum\limits_{j = 1}^L {\exp (\gamma (\alpha _n^js_n^j))\sum\limits_{i = 1}^K {\exp ( - \gamma \alpha _p^is_p^i)} } ] \\ \end{gathered}$

規(guī)定，無(wú)論是類間相似度還是類內(nèi)相似度，如果偏離最優(yōu)值越大，那么懲罰力度就越大，因此有：

$\left\{ {\begin{array}{*{20}{c}} {\alpha _p^i = {{[{O_p} - s_p^i]}_ + }} \\ {\alpha _n^j = {{[s_n^j - {O_n}]}_ + }} \end{array}} \right.\$

其中+代表從0截?cái)?，代表取值非?fù)。另外， $s_p$ 與 $s_n$ 非對(duì)稱，因此各自定義余量，有：

${\mathcal{L}_{circle}} = \log [1 + \sum\limits_{j = 1}^L {\exp (\gamma \alpha _n^j(s_n^j - {\Delta _n}))\sum\limits_{i = 1}^K {\exp ( - \gamma \alpha _p^i(s_p^i - {\Delta _p}))} } ]$

考慮簡(jiǎn)單的二分類情況，令 $\exp (.)\$ 為1，有： ${\alpha _n}({s_n} - {\Delta _n}) - {\alpha _p}({s_p} - {\Delta _p}) = 0\$

帶入權(quán)重則有： $({s_n} - \frac{{{O_n} + {\Delta _n}}}{2})^2 + ({s_p} - \frac{{{O_p} + {\Delta _p}}}{2})^2 = C,C = ({({O_n} - {\Delta _n})^2} + {({O_p} - {\Delta _p})^2})/4$