論文筆記【Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition】

摘要

多標簽圖像識別是計算機視覺中一項基礎卻又有挑戰(zhàn)性的任務。利用深度卷積神經(jīng)網(wǎng)絡對具有語義感知的圖像區(qū)域進行定位,并對其標簽進行預測,目前取得了顯著的進展。然而,通過提出假設區(qū)域進行對圖像區(qū)域的定位,需要冗余的計算成本,而且往往忽略或簡單化了區(qū)域之間的上下文依賴關系。作者在該論文中提出了一個循環(huán)注意強化學習框架,迭代地發(fā)現(xiàn)與不同語義對象相關的注意區(qū)域(含有信息的圖像區(qū)域),并對這些區(qū)域預測相關標簽的得分。此外,該模型還可以對注意區(qū)域的依賴關系進行建模,從而促進多標簽識別。實驗證明,該模型在性能和效率都具有優(yōu)勢。

介紹

這一部分作者主要介紹了圖像分類的發(fā)展,從最初的單標簽分類,到更接近現(xiàn)實任務的多標簽分類,并談論了目前多標簽分類所采用的方法(對CNNs進行微調(diào)、引入假設區(qū)域),以及它們的優(yōu)點和不足(如HCP中存在冗余計算和次優(yōu)性能的問題)。為了達到更好的分類性能,作者提出了一個可端到端訓練的循環(huán)注意強化學習框架,其中包括了一個用于提取輸入圖像特征表示卷積網(wǎng)絡和一個有LSTM網(wǎng)絡實現(xiàn)的循環(huán)注意感知模塊。

相關工作

主要介紹了目前多標簽圖像識別和視覺注意網(wǎng)絡這兩個研究領域上的一些進展。

模型


模型結(jié)構(gòu)示意圖

總體結(jié)構(gòu):
? ? 1. FCN(全卷積網(wǎng)絡):從原始輸入圖像中提取特征映射f_{I} (feature maps)。
? ? 2. 循環(huán)注意感知模塊:在每一次迭代的過程中:通過特征映射f_{I} 以及位置l_{t} (由上一次迭代生成),找到k個注意區(qū)域,并根據(jù)f_{I} 提取每一個區(qū)域?qū)奶卣?img class="math-inline" src="https://math.jianshu.com/math?formula=f_%7Btr%7D%20" alt="f_{tr} " mathimg="1">。由一個LSTM網(wǎng)絡,根據(jù)區(qū)域的特征f_{tr}以及上一次迭代后的隱藏狀態(tài),為每個區(qū)域進行相應的標簽預測得分a_{tr} ,并生成一個最優(yōu)位置l_{t+1} 供下一次迭代使用。
? ? 3. 集合:在迭代結(jié)束后,將所有循環(huán)得到的預測得分經(jīng)過 category-wise max-pooling 得到最終的標簽分布結(jié)果。

1. FCN全卷積網(wǎng)絡

? ? 首先將原始輸入圖像大小調(diào)整為W × H ,并通過網(wǎng)絡VGG16 ConvNet 訓練得到圖像的特征映射f_{I}\epsilonR^{C\times W\times H},特征映射是從最后一次卷積層得出的。

2.?循環(huán)注意感知模塊

? ? (1)首先根據(jù)特征映射f_{I} 提取中心位于l_{t} 的不同尺寸、比例的k個圖像區(qū)域\left\{ R_{tr}  \right\} _{r=1}^k。
? ? (2)由特征映射f_{I} 和區(qū)域R_{tr} ,提取每個區(qū)域?qū)奶卣?img class="math-inline" src="https://math.jianshu.com/math?formula=f_%7Btr%7D%20" alt="f_{tr} " mathimg="1">:

其中函數(shù)G包括了裁剪和雙線性插值的操作,最終得到的f_{tr} 具有固定的大小。
(區(qū)域特征的提取基于整幅圖像的特征映射f_{I} ,避免了計算密集的卷積過程)
? ? (3)LSTM以上一次迭代后的隱藏狀態(tài)h_{t-1} 以及每一區(qū)域的特征f_{tr} ,為每個區(qū)域進行相應的標簽預測得分a_{tr} ,并生成一個最優(yōu)位置l_{t+1} 供下一次迭代使用:

其中\theta 為網(wǎng)絡的參數(shù),a_{tr} 對于于區(qū)域R_{tr} 的標簽得分。注意在第一次迭代的過程中,以整幅圖像作為注意區(qū)域,即R_{0} 只有一個區(qū)域,它的目的僅僅為確定l_{1} 的位置。

3.?category-wise max-pooling

? ? 在迭代結(jié)束后,模型一共得到了C\times k\times T個得分(T次迭代產(chǎn)生了得分,每一次迭代為k個區(qū)域打分,每個區(qū)域的得分為一個C維向量。其中C是總的標簽個數(shù)或總類別數(shù)):
\left\{ a_{tr}|t=1,2,...,T; r=1,2,...,k  \right\} ,其中a_{tr} =\left\{ a_{tr}^0,a_{tr}^1,...,a_{tr}^{C-1}  \right\} 。這里category-wise max-pooling簡單地選取每個標簽的最大預測得分值最為最終結(jié)果:a^c = max(a_{11}^c,a_{12}^c,...,a_{Tk}^c ),c=0,1,...,C-1。

訓練過程

? ? 循環(huán)注意感知模塊對區(qū)域的打分和搜索下一最優(yōu)位置,可以看作是一個順序決策問題,通過引入強化學習進行訓練。
? ? (1)狀態(tài):s_{t} 由兩部分組成。一是當前區(qū)域的特征\left\{ f_{tr}  \right\} _{r=1}^k;二是上一次迭代的隱藏狀態(tài)h_{t-1} (有助于找到瞥見區(qū)域和標簽之間的上下文依賴關系)。
? ??????????????????????????????????s_{t}  = \left\{ f_{t1},f_{t2},...,f_{tk},h_{t-1}  \right\}
? ? (2)動作:包括兩個部分,
? ? ? ? ? ? (a)一是為區(qū)域進行打分,具體操作為:將區(qū)域的特征 f_{tr}通過一個全連接層生成語義表現(xiàn)。LSTM根據(jù)語義表現(xiàn)以及上次迭代的隱藏狀態(tài),生成新的隱藏狀態(tài)\left\{ h_{tr}  \right\} _{r=1}^k,新的隱藏狀態(tài)通過一個分類網(wǎng)絡為每個區(qū)域進行打分:


其中\theta _{cls} 為分類網(wǎng)絡的參數(shù)。

? ? ? ? ? ? (b)二是尋找下一最優(yōu)位置,具體操作為:將\left\{ h_{tr}  \right\} _{r=1}^k求均值得到h_{t} ,h_{t} 經(jīng)過一個帶參數(shù)\theta _{loc} 的定位網(wǎng)絡f_{loc} 。以f_{loc} (h_{t};\theta _{loc}  )的輸出作為均值,以\sigma (常設為0.11)作為方差構(gòu)建高斯分布,并根據(jù)該分布隨機取得位置l_{t+1} 。
? ? (3)獎勵:每次迭代的獎勵定義為


? ? ? ? ? ? 其中,g為圖像真實的n個標簽(ground-truth labels),p為得分最高的前n個標簽,\vert .\vert 為集合的大小。
? ? ? ? ? ? 總的獎勵為:

? ? ? ? ? ? 其中,\gamma 取1。故總的獎勵R=r_{T} 。

? ? 除了定義分類損失函數(shù),作者還定義了一個延遲獎勵機制,得到一個混合的目標函數(shù)。最終的目的是為了學到一個可以指導打分和生成下一位置的策略\pi ((a_{t}, l_{t+1})|S_t;\theta  )其中S_t為之前的注意區(qū)域和動作S_t=R_0,l_1,R_1,a_1,l_2,...,Rt

? ? 目標函數(shù),是獎勵期望最大化:

? ??P(S_T;\theta )為所有可能的交互序列的分布。
? ? 目標函數(shù)的梯度計算:

分類損失函數(shù):

其中:

? ??y_i為真實標簽的獨熱編碼。||||_1表示求向量元素絕對值之和。

實驗

以下為作者進行實驗的結(jié)果以及與其他方法的比較:

論文中還進行了消融實驗,檢驗模型中每一個模塊的作用。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容