摘要

多標簽圖像識別是計算機視覺中一項基礎卻又有挑戰(zhàn)性的任務。利用深度卷積神經(jīng)網(wǎng)絡對具有語義感知的圖像區(qū)域進行定位，并對其標簽進行預測，目前取得了顯著的進展。然而，通過提出假設區(qū)域進行對圖像區(qū)域的定位，需要冗余的計算成本，而且往往忽略或簡單化了區(qū)域之間的上下文依賴關系。作者在該論文中提出了一個循環(huán)注意強化學習框架，迭代地發(fā)現(xiàn)與不同語義對象相關的注意區(qū)域（含有信息的圖像區(qū)域），并對這些區(qū)域預測相關標簽的得分。此外，該模型還可以對注意區(qū)域的依賴關系進行建模，從而促進多標簽識別。實驗證明，該模型在性能和效率都具有優(yōu)勢。

介紹

這一部分作者主要介紹了圖像分類的發(fā)展，從最初的單標簽分類，到更接近現(xiàn)實任務的多標簽分類，并談論了目前多標簽分類所采用的方法（對CNNs進行微調(diào)、引入假設區(qū)域），以及它們的優(yōu)點和不足（如HCP中存在冗余計算和次優(yōu)性能的問題）。為了達到更好的分類性能，作者提出了一個可端到端訓練的循環(huán)注意強化學習框架，其中包括了一個用于提取輸入圖像特征表示卷積網(wǎng)絡和一個有LSTM網(wǎng)絡實現(xiàn)的循環(huán)注意感知模塊。

模型

模型結(jié)構(gòu)示意圖

總體結(jié)構(gòu)：
? ? 1. FCN（全卷積網(wǎng)絡）：從原始輸入圖像中提取特征映射 $f_{I}$ （feature maps）。
? ? 2. 循環(huán)注意感知模塊：在每一次迭代的過程中：通過特征映射 $f_{I}$ 以及位置 $l_{t}$ （由上一次迭代生成），找到k個注意區(qū)域，并根據(jù) $f_{I}$ 提取每一個區(qū)域?qū)奶卣?img class="math-inline" src="https://math.jianshu.com/math?formula=f_%7Btr%7D%20" alt="f_{tr} " mathimg="1">。由一個LSTM網(wǎng)絡，根據(jù)區(qū)域的特征 $f_{tr}$ 以及上一次迭代后的隱藏狀態(tài)，為每個區(qū)域進行相應的標簽預測得分 $a_{tr}$ ，并生成一個最優(yōu)位置 $l_{t+1}$ 供下一次迭代使用。
? ? 3. 集合：在迭代結(jié)束后，將所有循環(huán)得到的預測得分經(jīng)過 category-wise max-pooling 得到最終的標簽分布結(jié)果。

1. FCN全卷積網(wǎng)絡

? ? 首先將原始輸入圖像大小調(diào)整為W × H ，并通過網(wǎng)絡VGG16 ConvNet 訓練得到圖像的特征映射 $f_{I}\epsilon$ $R^{C\times W\times H}$ ，特征映射是從最后一次卷積層得出的。

2.?循環(huán)注意感知模塊

? ? （1）首先根據(jù)特征映射 $f_{I}$ 提取中心位于 $l_{t}$ 的不同尺寸、比例的k個圖像區(qū)域 $\left\{ R_{tr} \right\} _{r=1}^k$ 。
? ? （2）由特征映射 $f_{I}$ 和區(qū)域 $R_{tr}$ ，提取每個區(qū)域?qū)奶卣?img class="math-inline" src="https://math.jianshu.com/math?formula=f_%7Btr%7D%20" alt="f_{tr} " mathimg="1">：

其中函數(shù)G包括了裁剪和雙線性插值的操作，最終得到的 $f_{tr}$ 具有固定的大小。
（區(qū)域特征的提取基于整幅圖像的特征映射 $f_{I}$ ，避免了計算密集的卷積過程）
? ? （3）LSTM以上一次迭代后的隱藏狀態(tài) $h_{t-1}$ 以及每一區(qū)域的特征 $f_{tr}$ ，為每個區(qū)域進行相應的標簽預測得分 $a_{tr}$ ，并生成一個最優(yōu)位置 $l_{t+1}$ 供下一次迭代使用：

其中 $\theta$ 為網(wǎng)絡的參數(shù)， $a_{tr}$ 對于于區(qū)域 $R_{tr}$ 的標簽得分。注意在第一次迭代的過程中，以整幅圖像作為注意區(qū)域，即 $R_{0}$ 只有一個區(qū)域，它的目的僅僅為確定 $l_{1}$ 的位置。

3.?category-wise max-pooling

? ? 在迭代結(jié)束后，模型一共得到了C $\times$ k $\times$ T個得分（T次迭代產(chǎn)生了得分，每一次迭代為k個區(qū)域打分，每個區(qū)域的得分為一個C維向量。其中C是總的標簽個數(shù)或總類別數(shù)）：
$\left\{ a_{tr}|t=1,2,...,T; r=1,2,...,k \right\}$ ，其中 $a_{tr} =\left\{ a_{tr}^0,a_{tr}^1,...,a_{tr}^{C-1} \right\}$ 。這里category-wise max-pooling簡單地選取每個標簽的最大預測得分值最為最終結(jié)果： $a^c = max(a_{11}^c,a_{12}^c,...,a_{Tk}^c ),c=0,1,...,C-1$ 。

訓練過程

? ? 循環(huán)注意感知模塊對區(qū)域的打分和搜索下一最優(yōu)位置，可以看作是一個順序決策問題，通過引入強化學習進行訓練。
? ? （1）狀態(tài)： $s_{t}$ 由兩部分組成。一是當前區(qū)域的特征 $\left\{ f_{tr} \right\} _{r=1}^k$ ；二是上一次迭代的隱藏狀態(tài) $h_{t-1}$ (有助于找到瞥見區(qū)域和標簽之間的上下文依賴關系)。
? ?????????????????????????????????? $s_{t} = \left\{ f_{t1},f_{t2},...,f_{tk},h_{t-1} \right\}$
? ? （2）動作：包括兩個部分，
? ? ? ? ? ? （a）一是為區(qū)域進行打分，具體操作為：將區(qū)域的特征 $f_{tr}$ 通過一個全連接層生成語義表現(xiàn)。LSTM根據(jù)語義表現(xiàn)以及上次迭代的隱藏狀態(tài)，生成新的隱藏狀態(tài) $\left\{ h_{tr} \right\} _{r=1}^k$ ，新的隱藏狀態(tài)通過一個分類網(wǎng)絡為每個區(qū)域進行打分：

其中 $\theta _{cls}$ 為分類網(wǎng)絡的參數(shù)。

? ? ? ? ? ? （b)二是尋找下一最優(yōu)位置，具體操作為：將 $\left\{ h_{tr} \right\} _{r=1}^k$ 求均值得到 $h_{t}$ , $h_{t}$ 經(jīng)過一個帶參數(shù) $\theta _{loc}$ 的定位網(wǎng)絡 $f_{loc}$ 。以 $f_{loc} (h_{t};\theta _{loc} )$ 的輸出作為均值，以 $\sigma$ （常設為0.11）作為方差構(gòu)建高斯分布，并根據(jù)該分布隨機取得位置 $l_{t+1}$ 。
? ? （3）獎勵：每次迭代的獎勵定義為

? ? ? ? ? ? 其中，g為圖像真實的n個標簽（ground-truth labels），p為得分最高的前n個標簽， $\vert .\vert$ 為集合的大小。
? ? ? ? ? ? 總的獎勵為：

? ? ? ? ? ? 其中， $\gamma$ 取1。故總的獎勵 $R=r_{T}$ 。

? ? 除了定義分類損失函數(shù)，作者還定義了一個延遲獎勵機制，得到一個混合的目標函數(shù)。最終的目的是為了學到一個可以指導打分和生成下一位置的策略 $\pi ((a_{t}, l_{t+1})|S_t;\theta )$ 其中 $S_t$ 為之前的注意區(qū)域和動作 $S_t=R_0,l_1,R_1,a_1,l_2,...,Rt$ 。