摘要
多標簽圖像識別是計算機視覺中一項基礎卻又有挑戰(zhàn)性的任務。利用深度卷積神經(jīng)網(wǎng)絡對具有語義感知的圖像區(qū)域進行定位,并對其標簽進行預測,目前取得了顯著的進展。然而,通過提出假設區(qū)域進行對圖像區(qū)域的定位,需要冗余的計算成本,而且往往忽略或簡單化了區(qū)域之間的上下文依賴關系。作者在該論文中提出了一個循環(huán)注意強化學習框架,迭代地發(fā)現(xiàn)與不同語義對象相關的注意區(qū)域(含有信息的圖像區(qū)域),并對這些區(qū)域預測相關標簽的得分。此外,該模型還可以對注意區(qū)域的依賴關系進行建模,從而促進多標簽識別。實驗證明,該模型在性能和效率都具有優(yōu)勢。
介紹
這一部分作者主要介紹了圖像分類的發(fā)展,從最初的單標簽分類,到更接近現(xiàn)實任務的多標簽分類,并談論了目前多標簽分類所采用的方法(對CNNs進行微調(diào)、引入假設區(qū)域),以及它們的優(yōu)點和不足(如HCP中存在冗余計算和次優(yōu)性能的問題)。為了達到更好的分類性能,作者提出了一個可端到端訓練的循環(huán)注意強化學習框架,其中包括了一個用于提取輸入圖像特征表示卷積網(wǎng)絡和一個有LSTM網(wǎng)絡實現(xiàn)的循環(huán)注意感知模塊。
相關工作
主要介紹了目前多標簽圖像識別和視覺注意網(wǎng)絡這兩個研究領域上的一些進展。
模型

總體結(jié)構(gòu):
? ? 1. FCN(全卷積網(wǎng)絡):從原始輸入圖像中提取特征映射(feature maps)。
? ? 2. 循環(huán)注意感知模塊:在每一次迭代的過程中:通過特征映射以及位置
(由上一次迭代生成),找到k個注意區(qū)域,并根據(jù)
提取每一個區(qū)域?qū)奶卣?img class="math-inline" src="https://math.jianshu.com/math?formula=f_%7Btr%7D%20" alt="f_{tr} " mathimg="1">。由一個LSTM網(wǎng)絡,根據(jù)區(qū)域的特征
以及上一次迭代后的隱藏狀態(tài),為每個區(qū)域進行相應的標簽預測得分
,并生成一個最優(yōu)位置
供下一次迭代使用。
? ? 3. 集合:在迭代結(jié)束后,將所有循環(huán)得到的預測得分經(jīng)過 category-wise max-pooling 得到最終的標簽分布結(jié)果。
1. FCN全卷積網(wǎng)絡
? ? 首先將原始輸入圖像大小調(diào)整為W × H ,并通過網(wǎng)絡VGG16 ConvNet 訓練得到圖像的特征映射,特征映射是從最后一次卷積層得出的。
2.?循環(huán)注意感知模塊
? ? (1)首先根據(jù)特征映射提取中心位于
的不同尺寸、比例的k個圖像區(qū)域
。
? ? (2)由特征映射和區(qū)域
,提取每個區(qū)域?qū)奶卣?img class="math-inline" src="https://math.jianshu.com/math?formula=f_%7Btr%7D%20" alt="f_{tr} " mathimg="1">:

其中函數(shù)G包括了裁剪和雙線性插值的操作,最終得到的具有固定的大小。
(區(qū)域特征的提取基于整幅圖像的特征映射,避免了計算密集的卷積過程)
? ? (3)LSTM以上一次迭代后的隱藏狀態(tài)以及每一區(qū)域的特征
,為每個區(qū)域進行相應的標簽預測得分
,并生成一個最優(yōu)位置
供下一次迭代使用:

其中為網(wǎng)絡的參數(shù),
對于于區(qū)域
的標簽得分。注意在第一次迭代的過程中,以整幅圖像作為注意區(qū)域,即
只有一個區(qū)域,它的目的僅僅為確定
的位置。
3.?category-wise max-pooling
? ? 在迭代結(jié)束后,模型一共得到了Ck
T個得分(T次迭代產(chǎn)生了得分,每一次迭代為k個區(qū)域打分,每個區(qū)域的得分為一個C維向量。其中C是總的標簽個數(shù)或總類別數(shù)):
,其中
。這里category-wise max-pooling簡單地選取每個標簽的最大預測得分值最為最終結(jié)果:
。
訓練過程
? ? 循環(huán)注意感知模塊對區(qū)域的打分和搜索下一最優(yōu)位置,可以看作是一個順序決策問題,通過引入強化學習進行訓練。
? ? (1)狀態(tài):由兩部分組成。一是當前區(qū)域的特征
;二是上一次迭代的隱藏狀態(tài)
(有助于找到瞥見區(qū)域和標簽之間的上下文依賴關系)。
? ??????????????????????????????????
? ? (2)動作:包括兩個部分,
? ? ? ? ? ? (a)一是為區(qū)域進行打分,具體操作為:將區(qū)域的特征通過一個全連接層生成語義表現(xiàn)。LSTM根據(jù)語義表現(xiàn)以及上次迭代的隱藏狀態(tài),生成新的隱藏狀態(tài)
,新的隱藏狀態(tài)通過一個分類網(wǎng)絡為每個區(qū)域進行打分:

其中為分類網(wǎng)絡的參數(shù)。
? ? ? ? ? ? (b)二是尋找下一最優(yōu)位置,具體操作為:將求均值得到
,
經(jīng)過一個帶參數(shù)
的定位網(wǎng)絡
。以
的輸出作為均值,以
(常設為0.11)作為方差構(gòu)建高斯分布,并根據(jù)該分布隨機取得位置
。
? ? (3)獎勵:每次迭代的獎勵定義為

? ? ? ? ? ? 其中,g為圖像真實的n個標簽(ground-truth labels),p為得分最高的前n個標簽,為集合的大小。
? ? ? ? ? ? 總的獎勵為:

? ? ? ? ? ? 其中,取1。故總的獎勵
。
? ? 除了定義分類損失函數(shù),作者還定義了一個延遲獎勵機制,得到一個混合的目標函數(shù)。最終的目的是為了學到一個可以指導打分和生成下一位置的策略其中
為之前的注意區(qū)域和動作
。
? ? 目標函數(shù),是獎勵期望最大化:

? ??為所有可能的交互序列的分布。
? ? 目標函數(shù)的梯度計算:

分類損失函數(shù):

其中:


? ??為真實標簽的獨熱編碼。|||
表示求向量元素絕對值之和。
實驗
以下為作者進行實驗的結(jié)果以及與其他方法的比較:

論文中還進行了消融實驗,檢驗模型中每一個模塊的作用。