論文地址:https://arxiv.org/abs/1803.11189v1
摘要
我們提出一種創(chuàng)新的視覺迭代推理框架,超越了現(xiàn)在只有卷積堆疊而無推理能力的識別系統(tǒng)。我們的框架由兩個模型組成:一個使用空間記憶來存儲、同步更新先驗置信度的局部模型;一個全局圖推理模型。我們的圖模型由三個部分組成:a)知識圖,將類別表征為節(jié)點而將語義關(guān)系表征為節(jié)點之間的變;b)當前圖片的區(qū)域圖,將圖片中的區(qū)域表征為節(jié)點而將區(qū)域之間的關(guān)系表征為邊;c)分配圖,將區(qū)域分配給類別。不管是局部模型還是全局模型都是迭代更新,并且相互之間交叉?zhèn)鬏旑A測值,以優(yōu)化預測結(jié)果。我們的模型在ADE數(shù)據(jù)集上表現(xiàn)出強勁的性能,比以單純卷積的方法提高8.4%(以每個類別的精確率評測)。我們的分析也表明該框架對于缺失推理區(qū)域的情況也有很強的適應能力。
介紹
近幾年我們在基礎(chǔ)識別任務如圖像分類、檢測、分割任務中取得了豐厚的成果,這些成果中大多數(shù)都使用了學習好的前向傳播端到端的卷積模型。與人類對于空間與語義的視覺推理能力不同,我們現(xiàn)在的視覺系統(tǒng)在擁有大量感受野的卷積之外缺少內(nèi)容推理能力。因此,如何結(jié)合空間與語義的推理能力來構(gòu)建下一代視覺系統(tǒng)是一個十分重要的問題。
我們的目標是構(gòu)建一個不僅僅可以抽取并且利用分層卷積特征的系統(tǒng),更是要提高它對空間與語義關(guān)系預測的能力。那么,什么是空間與語義關(guān)系呢,它們又如何用來提高識別結(jié)果呢?看一下圖1,空間推理的例子(左上):如果空間中四分之三是“窗戶”,那么第四個區(qū)域也可能是窗戶。語義推理的例子(右下):即使只看到少量或者沒有看到校車的例子——僅僅給一些“公共汽車”的例子以及它們的聯(lián)系,也能識別出“校車”。最后,空間-語義推理的例子:識別出路上的一輛“車”應該有助于識別出“開車”的“人”。

關(guān)系推理的一個關(guān)鍵之處是迭代進行預測。近期,有一些使用自頂向下的模型或者使用詳細記憶的方法來進行推理。在自頂向下的模型中,包含類別相關(guān)信息的高級特征與低級特征相結(jié)合來提高識別結(jié)果。另一個可選方案是使用詳細記憶。例如,Chen & Gupta 借助卷積的強大能力來抽取密集內(nèi)容模型,使用空間記憶來存儲先前檢測到的物體來提高時許物體檢測的性能。
但是,這些方法有兩個問題:a)每一種方法都使用堆疊的卷積來進行局部像素級別的推理,從而缺少全局推理的能力,缺少區(qū)域之間的信息流通。b)更重要的是,兩種方法盡管可以將訓練集中視覺關(guān)系的樣本利用的很好,但是隨著類別的增長視覺關(guān)系成指數(shù)增長,也就是說數(shù)據(jù)永遠是不夠的。很多語義推理要求從少量樣本甚至沒有樣本的環(huán)境中學習,因此我們需要探索額外的結(jié)構(gòu)化信息來幫助視覺推理。
在這篇論文中,我們提出了適用于空間與語義推理的通用框架。與現(xiàn)有只依賴于卷積方法不同的是,我們的框架可以知識庫的形式來學習結(jié)構(gòu)化信息。我們算法核心由兩個模塊組成:依賴卷積進行像素級別推理的空間記憶局部模型,我們通過同時更新記憶大大提升了性能;在局部區(qū)域之上進行推理的全局模型。全局模型基于圖結(jié)構(gòu),由三個部分組成:a)知識圖,將類別表征為節(jié)點而將語義關(guān)系表征為節(jié)點之間的變;b)當前圖片的區(qū)域圖,將圖片中的區(qū)域表征為節(jié)點而將區(qū)域之間的關(guān)系表征為邊;c)分配圖,將區(qū)域分配給類別。威力利用好這個結(jié)構(gòu),我們專為圖內(nèi)信息傳遞開發(fā)了推理方法。局部模型和全局模型都可以迭代更新,并且相互之間交叉?zhèn)鬏旑A測值,以優(yōu)化預測結(jié)果。因此,局部與全局的推理并不是獨立的:好的圖像理解通常由先驗背景知識和特別的圖片觀察組成。因此,我們的流水線使用注意力機制來將這兩種模型結(jié)合,依賴于最相關(guān)的特征進行最終預測。
我們的結(jié)果在ADE數(shù)據(jù)集上表現(xiàn)出強勁的性能,比以單純卷積的方法提高8.4%(以每個類別的精確率評測),而簡單堆深網(wǎng)絡(luò)智能提高1%。
相關(guān)工作
視覺知識庫(Visual Knowledge Base)。
內(nèi)容建模( Context Modeling )。
關(guān)系推理( Relational Reasoning )。
推理框架
這一節(jié)介紹我們的推理框架。除了卷積網(wǎng)絡(luò)簡單預測得到的p0(注:應該是概率的意思),它還包含兩個核心模型進行推理預測。首先是局部模型,使用空間記憶來存儲并同步更新之前的置信度,這個依然是依賴卷積的基礎(chǔ)推理。除了卷積,我們還有核心貢獻——直接從兩個表征為圖節(jié)點的區(qū)域和類別進行推理的全局模型。