論文地址：https://arxiv.org/abs/1803.11189v1

摘要

我們提出一種創(chuàng)新的視覺迭代推理框架，超越了現(xiàn)在只有卷積堆疊而無推理能力的識別系統(tǒng)。我們的框架由兩個模型組成：一個使用空間記憶來存儲、同步更新先驗置信度的局部模型；一個全局圖推理模型。我們的圖模型由三個部分組成：a）知識圖，將類別表征為節(jié)點而將語義關(guān)系表征為節(jié)點之間的變；b）當前圖片的區(qū)域圖，將圖片中的區(qū)域表征為節(jié)點而將區(qū)域之間的關(guān)系表征為邊；c）分配圖，將區(qū)域分配給類別。不管是局部模型還是全局模型都是迭代更新，并且相互之間交叉?zhèn)鬏旑A測值，以優(yōu)化預測結(jié)果。我們的模型在ADE數(shù)據(jù)集上表現(xiàn)出強勁的性能，比以單純卷積的方法提高8.4%（以每個類別的精確率評測）。我們的分析也表明該框架對于缺失推理區(qū)域的情況也有很強的適應能力。

介紹

近幾年我們在基礎(chǔ)識別任務如圖像分類、檢測、分割任務中取得了豐厚的成果，這些成果中大多數(shù)都使用了學習好的前向傳播端到端的卷積模型。與人類對于空間與語義的視覺推理能力不同，我們現(xiàn)在的視覺系統(tǒng)在擁有大量感受野的卷積之外缺少內(nèi)容推理能力。因此，如何結(jié)合空間與語義的推理能力來構(gòu)建下一代視覺系統(tǒng)是一個十分重要的問題。

我們的目標是構(gòu)建一個不僅僅可以抽取并且利用分層卷積特征的系統(tǒng)，更是要提高它對空間與語義關(guān)系預測的能力。那么，什么是空間與語義關(guān)系呢，它們又如何用來提高識別結(jié)果呢？看一下圖1，空間推理的例子（左上）：如果空間中四分之三是“窗戶”，那么第四個區(qū)域也可能是窗戶。語義推理的例子（右下）：即使只看到少量或者沒有看到校車的例子——僅僅給一些“公共汽車”的例子以及它們的聯(lián)系，也能識別出“校車”。最后，空間-語義推理的例子：識別出路上的一輛“車”應該有助于識別出“開車”的“人”。

圖1

關(guān)系推理的一個關(guān)鍵之處是迭代進行預測。近期，有一些使用自頂向下的模型或者使用詳細記憶的方法來進行推理。在自頂向下的模型中，包含類別相關(guān)信息的高級特征與低級特征相結(jié)合來提高識別結(jié)果。另一個可選方案是使用詳細記憶。例如，Chen & Gupta 借助卷積的強大能力來抽取密集內(nèi)容模型，使用空間記憶來存儲先前檢測到的物體來提高時許物體檢測的性能。

但是，這些方法有兩個問題：a）每一種方法都使用堆疊的卷積來進行局部像素級別的推理，從而缺少全局推理的能力，缺少區(qū)域之間的信息流通。b）更重要的是，兩種方法盡管可以將訓練集中視覺關(guān)系的樣本利用的很好，但是隨著類別的增長視覺關(guān)系成指數(shù)增長，也就是說數(shù)據(jù)永遠是不夠的。很多語義推理要求從少量樣本甚至沒有樣本的環(huán)境中學習，因此我們需要探索額外的結(jié)構(gòu)化信息來幫助視覺推理。

在這篇論文中，我們提出了適用于空間與語義推理的通用框架。與現(xiàn)有只依賴于卷積方法不同的是，我們的框架可以知識庫的形式來學習結(jié)構(gòu)化信息。我們算法核心由兩個模塊組成：依賴卷積進行像素級別推理的空間記憶局部模型，我們通過同時更新記憶大大提升了性能；在局部區(qū)域之上進行推理的全局模型。全局模型基于圖結(jié)構(gòu)，由三個部分組成：a）知識圖，將類別表征為節(jié)點而將語義關(guān)系表征為節(jié)點之間的變；b）當前圖片的區(qū)域圖，將圖片中的區(qū)域表征為節(jié)點而將區(qū)域之間的關(guān)系表征為邊；c）分配圖，將區(qū)域分配給類別。威力利用好這個結(jié)構(gòu)，我們專為圖內(nèi)信息傳遞開發(fā)了推理方法。局部模型和全局模型都可以迭代更新，并且相互之間交叉?zhèn)鬏旑A測值，以優(yōu)化預測結(jié)果。因此，局部與全局的推理并不是獨立的：好的圖像理解通常由先驗背景知識和特別的圖片觀察組成。因此，我們的流水線使用注意力機制來將這兩種模型結(jié)合，依賴于最相關(guān)的特征進行最終預測。

我們的結(jié)果在ADE數(shù)據(jù)集上表現(xiàn)出強勁的性能，比以單純卷積的方法提高8.4%（以每個類別的精確率評測），而簡單堆深網(wǎng)絡(luò)智能提高1%。

推理框架

這一節(jié)介紹我們的推理框架。除了卷積網(wǎng)絡(luò)簡單預測得到的p0（注：應該是概率的意思），它還包含兩個核心模型進行推理預測。首先是局部模型，使用空間記憶來存儲并同步更新之前的置信度，這個依然是依賴卷積的基礎(chǔ)推理。除了卷積，我們還有核心貢獻——直接從兩個表征為圖節(jié)點的區(qū)域和類別進行推理的全局模型。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文筆記 - Iterative Visual Reasoning Beyond Convolutions

論文筆記 - Iterative Visual Reasoning Beyond Convolutions

摘要

介紹

相關(guān)工作

視覺知識庫（Visual Knowledge Base）。

內(nèi)容建模（ Context Modeling ）。

關(guān)系推理（ Relational Reasoning ）。

推理框架

未完待續(xù)。。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文筆記 - Iterative Visual Reasoning Beyond Convolutions

摘要

介紹

相關(guān)工作

視覺知識庫（Visual Knowledge Base）。

內(nèi)容建模（ Context Modeling ）。

關(guān)系推理（ Relational Reasoning ）。

推理框架

未完待續(xù)。。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

內(nèi)容建模（ Context Modeling ）。

關(guān)系推理（ Relational Reasoning ）。

未完待續(xù)。。