OpenSet檢測

CVPR 2021 Oral

https://arxiv.org/pdf/2103.02603.pdf

https://hub.fastgit.org/JosephKJ/OWOD

人類有識(shí)別環(huán)境中未知物體實(shí)例的本能。當(dāng)相應(yīng)的知識(shí)最終可用時(shí),對(duì)這些未知實(shí)例的內(nèi)在好奇心有助于了解它們。這促使我們提出了一個(gè)新的計(jì)算機(jī)視覺問題,稱為“開放世界目標(biāo)檢測”,模型的任務(wù)是:1)在沒有明確監(jiān)督的情況下,將尚未引入的目標(biāo)識(shí)別為“未知”,2)逐步學(xué)習(xí)這些已識(shí)別的未知類別,而不忘記以前學(xué)習(xí)的類,當(dāng)相應(yīng)的標(biāo)簽逐漸收到時(shí)。本文提出了一種基于對(duì)比聚類和基于能量的未知識(shí)別的開放世界目標(biāo)檢測算法。我們的實(shí)驗(yàn)評(píng)估和燒蝕研究分析了礦石在實(shí)現(xiàn)開放世界目標(biāo)方面的功效。作為一個(gè)有趣的副產(chǎn)品,我們發(fā)現(xiàn)識(shí)別和描述未知實(shí)例有助于減少增量對(duì)象檢測設(shè)置中的混淆,在增量對(duì)象檢測設(shè)置中,我們實(shí)現(xiàn)了最先進(jìn)的性能,而無需額外的方法學(xué)努力。我們希望,我們的工作將吸引進(jìn)一步研究這個(gè)新確定的,但至關(guān)重要的研究方向。

1.簡介

深度學(xué)習(xí)加速了目標(biāo)檢測研究的進(jìn)展[14,54,19,31,52],模型的任務(wù)是識(shí)別和定位圖像中的目標(biāo)。所有現(xiàn)有的方法都是在一個(gè)很強(qiáng)的假設(shè)下工作的,即所有要檢測的類在訓(xùn)練階段都是可用的。當(dāng)我們放松這一假設(shè)時(shí),出現(xiàn)了兩個(gè)具有挑戰(zhàn)性的場景:1)測試圖像可能包含來自未知類的對(duì)象,這些對(duì)象應(yīng)該被分類為未知。2) 當(dāng)有關(guān)這些已識(shí)別未知項(xiàng)的信息(標(biāo)簽)可用時(shí),模型應(yīng)該能夠增量地學(xué)習(xí)新類。發(fā)展心理學(xué)的研究[41,36]發(fā)現(xiàn),識(shí)別自己不知道的東西的能力是吸引好奇心的關(guān)鍵

這種好奇心激發(fā)了人們學(xué)習(xí)新事物的欲望[9,16]。這促使我們提出一個(gè)新的問題,即模型應(yīng)該能夠?qū)⑽粗獙?duì)象的實(shí)例識(shí)別為未知對(duì)象,然后在訓(xùn)練數(shù)據(jù)以統(tǒng)一的方式逐漸到達(dá)時(shí)學(xué)習(xí)識(shí)別它們。我們把這個(gè)問題稱為開放世界目標(biāo)檢測。

與開放世界中存在的無限數(shù)量的類相比,標(biāo)準(zhǔn)視覺數(shù)據(jù)集(如Pascal VOC[10]和MS-COCO[32])中注釋的類的數(shù)量非常少(分別為20和80)。將未知識(shí)別為未知需要很強(qiáng)的泛化能力。Scheirer等人[57]將其形式化為開集分類問題。從今以后,各種方法(使用1-vs-rest支持向量機(jī)和深度學(xué)習(xí)模型)都被用來解決這一具有挑戰(zhàn)性的問題。Bendale等人[3]通過額外更新圖像分類器來識(shí)別識(shí)別的新未知類,將開放集擴(kuò)展到開放世界分類設(shè)置。有趣的是,如圖1所示,由于問題設(shè)置的困難,開放世界目標(biāo)檢測還未被探索。

開放集和開放世界圖像分類的進(jìn)展不能簡單地適用于開放集和開放世界的目標(biāo)檢測,因?yàn)閱栴}設(shè)置有一個(gè)根本的區(qū)別:目標(biāo)檢測器被訓(xùn)練來檢測未知目標(biāo)作為背景。許多未知類的實(shí)例已經(jīng)與已知對(duì)象一起引入到對(duì)象檢測器中。由于沒有標(biāo)記,這些未知實(shí)例將被顯式地學(xué)習(xí)為背景,同時(shí)訓(xùn)練檢測模型。Dhamija等人[8]發(fā)現(xiàn),即使有這種額外的訓(xùn)練信號(hào),最先進(jìn)的目標(biāo)檢測器也會(huì)導(dǎo)致誤報(bào)檢測,其中未知目標(biāo)最終被歸類為已知類別之一,通常概率非常高。Miller等人[43]建議使用輟學(xué)采樣來估計(jì)目標(biāo)檢測預(yù)測的不確定性。這是開放集目標(biāo)檢測文獻(xiàn)中唯一一項(xiàng)同行評(píng)議的研究工作。我們提出的開放世界對(duì)象檢測方法更進(jìn)一步,一旦新類被檢測為未知,并且oracle為所有未知對(duì)象中感興趣的對(duì)象提供標(biāo)簽,就可以增量地學(xué)習(xí)它們。據(jù)我們所知,這在文獻(xiàn)中還沒有嘗試過。

與現(xiàn)有的封閉世界靜態(tài)學(xué)習(xí)設(shè)置相比,開放世界對(duì)象檢測設(shè)置更加自然。世界在新階級(jí)的數(shù)量、類型和結(jié)構(gòu)上是多樣化和動(dòng)態(tài)的。假設(shè)所有在推理時(shí)預(yù)期的類都是在訓(xùn)練期間看到的,這是天真的。在機(jī)器人、自動(dòng)駕駛汽車、植物表型鑒定、醫(yī)療保健和監(jiān)控等領(lǐng)域,檢測系統(tǒng)的實(shí)際部署不能完全掌握推理時(shí)需要學(xué)習(xí)的課程,同時(shí)還要接受內(nèi)部培訓(xùn)。在這樣的環(huán)境中部署的目標(biāo)檢測算法最自然、最現(xiàn)實(shí)的行為是自信地將未知對(duì)象預(yù)測為未知對(duì)象,并將已知對(duì)象劃分為相應(yīng)的類。當(dāng)更多關(guān)于已識(shí)別未知類的信息可用時(shí),系統(tǒng)應(yīng)該能夠?qū)⑺鼈兒喜⒌浆F(xiàn)有的知識(shí)庫中。這將定義一個(gè)智能目標(biāo)檢測系統(tǒng),我們正努力實(shí)現(xiàn)這一目標(biāo)。我們工作的主要貢獻(xiàn)是:

?我們引入了一種新的問題設(shè)置,即開放世界目標(biāo)檢測,它可以更緊密地模擬現(xiàn)實(shí)世界。

?我們開發(fā)了一種新的方法,稱為ORE,基于對(duì)比聚類、未知感知提議網(wǎng)絡(luò)和基于能量的未知識(shí)別來應(yīng)對(duì)開放世界檢測的挑戰(zhàn)。

?我們引入了一個(gè)全面的實(shí)驗(yàn)環(huán)境,有助于測量目標(biāo)探測器的開放世界特性,并將ORE與競爭性基線方法進(jìn)行比較。

?作為一個(gè)有趣的副產(chǎn)品,所提出的方法在增量目標(biāo)檢測方面實(shí)現(xiàn)了最先進(jìn)的性能,盡管主要不是為其設(shè)計(jì)的。

相關(guān)工作

開集分類:

開放集設(shè)置認(rèn)為通過訓(xùn)練集獲得的知識(shí)是不完整的,因此在測試過程中會(huì)遇到新的未知類。Scheirer等人[58]在一對(duì)一的環(huán)境中開發(fā)了開放集分類器,以平衡標(biāo)記遠(yuǎn)離已知訓(xùn)練示例的樣本的性能和風(fēng)險(xiǎn)(稱為開放空間風(fēng)險(xiǎn))。后續(xù)工作[23,59]將開放集框架擴(kuò)展到多類分類器設(shè)置,并采用概率模型來解釋未知類情況下分類器置信度的衰減。

Bendale和Boult[4]在深度網(wǎng)絡(luò)的特征空間中識(shí)別未知,并使用Weibull分布來估計(jì)集合風(fēng)險(xiǎn)(稱為OpenMax分類器)。[13]通過合成新的類圖像,提出了OpenMax的生成版本。Liu等人[35]考慮了一個(gè)長尾識(shí)別環(huán)境,其中大多數(shù)、少數(shù)和未知類共存。他們開發(fā)了一個(gè)度量學(xué)習(xí)框架,將看不見的類識(shí)別為未知類。本著類似的精神,有幾種專門的方法旨在檢測分布外的樣本[30]或新穎性[48]。最近,自監(jiān)督學(xué)習(xí)[46]和帶重構(gòu)的無監(jiān)督學(xué)習(xí)[65]被探索用于開集識(shí)別。然而,雖然這些工作可以識(shí)別未知的實(shí)例,但它們不能在多個(gè)訓(xùn)練集上以增量方式動(dòng)態(tài)更新自己。此外,我們基于能量的未知檢測方法還沒有被探索過。

開放世界分類:

[3] 首先提出了圖像識(shí)別的開放環(huán)境。他們提出了一種更靈活的設(shè)置,即已知和未知同時(shí)存在,而不是在一組固定的類上訓(xùn)練靜態(tài)分類器。該模型能同時(shí)識(shí)別這兩種類型的目標(biāo),并在為未知目標(biāo)提供新的標(biāo)簽時(shí)自適應(yīng)地進(jìn)行改進(jìn)。他們的方法通過重新校準(zhǔn)類概率來平衡開放空間風(fēng)險(xiǎn),從而擴(kuò)展了最近類均值分類器,使其在開放世界環(huán)境中運(yùn)行[47]研究開放世界的人臉識(shí)別學(xué)習(xí),而[64]提出使用一組已知類的樣本來匹配新樣本,如果與所有已知類的匹配度較低,則拒絕使用。然而,他們并沒有對(duì)圖像分類基準(zhǔn)進(jìn)行測試,也沒有研究電子商務(wù)應(yīng)用中的產(chǎn)品分類。

開集檢測:

Dhamija等人[8]正式研究了開放集設(shè)置對(duì)流行對(duì)象檢測器的影響。他們注意到,最先進(jìn)的對(duì)象檢測器通常對(duì)未知類進(jìn)行分類,并且對(duì)可見類的可信度很高。盡管檢測器是用背景類[55,14,33]顯式訓(xùn)練的,和/或應(yīng)用一個(gè)vs-rest分類器對(duì)每個(gè)類進(jìn)行建模[15,31]。一個(gè)專門的工作機(jī)構(gòu)[43,42,17]專注于開發(fā)對(duì)象檢測器中(空間和語義)不確定性的度量,以拒絕未知類。例如,[43,42]在SSD探測器中使用蒙特卡羅差[12]采樣來獲得不確定度估計(jì)。然而,這些方法不能在一個(gè)動(dòng)態(tài)的世界中逐漸調(diào)整它們的知識(shí)。

開放世界目標(biāo)檢測

讓我們?cè)诒竟?jié)中正式定義開放世界目標(biāo)檢測。在任何時(shí)間t,我們將已知對(duì)象類的集合看作Kt={1,2,…,C}? 其中N+表示正整數(shù)集。為了真實(shí)地模擬現(xiàn)實(shí)世界的動(dòng)態(tài),我們還假設(shè)它們存在一組未知類U={C+1,…},這在推理過程中可能會(huì)遇到。假設(shè)已知對(duì)象類Kt在數(shù)據(jù)集Dt={Xt,Yt}中被標(biāo)記,其中X和Y分別表示輸入圖像和標(biāo)簽。輸入圖像集由M個(gè)訓(xùn)練圖像組成,Xt={I1,IM}和每個(gè)圖像的相關(guān)對(duì)象標(biāo)簽形成標(biāo)簽集Yt={Y1,嗯}。每個(gè)Yi={y1,y2,…,yK}編碼一組K對(duì)象實(shí)例及其類標(biāo)簽和位置,即yK=[lk,xk,yK,wk,hk],其中l(wèi)k∈ Kt和xk、yk、wk、hk分別表示邊界框的中心坐標(biāo)、寬度和高度。

openworld對(duì)象檢測設(shè)置考慮一個(gè)對(duì)象檢測模型MC,它被訓(xùn)練來檢測所有以前遇到的C對(duì)象類。重要的是,MC模型能夠識(shí)別屬于任何已知C類的測試實(shí)例,并且還可以通過將新的或看不見的類實(shí)例分類為未知的(用標(biāo)簽0表示)來識(shí)別它。然后,可以將未知實(shí)例集Ut轉(zhuǎn)發(fā)給人類用戶,人類用戶可以識(shí)別n個(gè)新的感興趣的類(在潛在的大量未知中),并提供它們的訓(xùn)練示例。學(xué)習(xí)者增量地添加n個(gè)新類并更新自己,以生成更新的模型MC+n,而無需從頭開始對(duì)整個(gè)數(shù)據(jù)集進(jìn)行再培訓(xùn)。已知的類集也會(huì)更新為Kt+1=Kt+{C+1,C+n}。這個(gè)循環(huán)會(huì)在目標(biāo)探測器的整個(gè)生命周期中持續(xù),在這個(gè)生命周期中,它會(huì)用新的知識(shí)自適應(yīng)地更新自身。問題設(shè)置在圖2的頂行中示出。

開放世界物體探測器

一個(gè)成功的開放世界目標(biāo)檢測方法應(yīng)該能夠在沒有明確監(jiān)督的情況下識(shí)別未知實(shí)例,并且在將這些識(shí)別出的新實(shí)例的標(biāo)簽提交給模型進(jìn)行知識(shí)升級(jí)(無需從頭開始再培訓(xùn))時(shí),能夠克服對(duì)早期實(shí)例的遺忘。我們提出了一個(gè)解決方案,以統(tǒng)一的方式解決這兩個(gè)挑戰(zhàn)。

神經(jīng)網(wǎng)絡(luò)是通用函數(shù)逼近器[22],它通過一系列隱藏層學(xué)習(xí)輸入和輸出之間的映射。在這些隱藏層中學(xué)習(xí)的潛在表示直接控制每個(gè)功能的實(shí)現(xiàn)方式。我們假設(shè)在目標(biāo)探測器的潛在空間中學(xué)習(xí)類間的清晰區(qū)分可以產(chǎn)生雙重效果。首先,它幫助模型識(shí)別未知實(shí)例的特征表示與其他已知實(shí)例的不同之處,這有助于將未知實(shí)例識(shí)別為一個(gè)新奇的實(shí)例。第二,它有助于學(xué)習(xí)新類實(shí)例的特征表示,而不與潛在空間中的前一類重疊,有助于不遺忘的增量學(xué)習(xí)。幫助我們認(rèn)識(shí)到這一點(diǎn)的關(guān)鍵部分是我們?cè)跐撛诳臻g中提出的對(duì)比聚類,我們將在第二節(jié)中詳細(xì)闡述。4.1.

為了使用對(duì)比聚類法對(duì)未知數(shù)據(jù)進(jìn)行最佳聚類,我們需要對(duì)未知實(shí)例進(jìn)行監(jiān)督。手動(dòng)注釋未知類的潛在無限集合中的一小部分是不可行的。為了解決這個(gè)問題,我們提出了一種基于區(qū)域建議網(wǎng)絡(luò)[54]的自動(dòng)標(biāo)記機(jī)制來偽標(biāo)記未知實(shí)例,如第。4.2.? 潛在空間中自動(dòng)標(biāo)記的未知實(shí)例的固有分離有助于我們基于能量的分類頭區(qū)分已知和未知實(shí)例。如第。4.3,我們發(fā)現(xiàn)在未知情況下,亥姆霍茲自由能較高。

圖2顯示了ORE的高級(jí)架構(gòu)概述。我們選擇更快的R-CNN[54]作為基本檢測器,因?yàn)镈hamija等人[8]發(fā)現(xiàn),與單級(jí)RetinaNet檢測器[31]和基于對(duì)象的YOLO檢測器[52]相比,它具有更好的開集性能。更快的R-CNN[54]是一個(gè)兩級(jí)目標(biāo)探測器。在第一階段中,類無關(guān)區(qū)域建議網(wǎng)絡(luò)(RPN)提出可能具有來自共享主干網(wǎng)絡(luò)的特征映射的對(duì)象的潛在區(qū)域。第二階段對(duì)每個(gè)區(qū)域的邊界框坐標(biāo)進(jìn)行分類和調(diào)整。對(duì)感興趣區(qū)域(RoI)頭部剩余塊生成的特征進(jìn)行對(duì)比聚類。RPN和分類頭分別用于自動(dòng)標(biāo)注和識(shí)別未知量。我們將在以下小節(jié)中解釋這些連貫的組成部分:

對(duì)比聚類

潛在空間中的類分離是開放世界方法識(shí)別未知的理想特征。一種自然的方法是將其建模為一個(gè)對(duì)比聚類問題,在這個(gè)問題中,同一類的實(shí)例將被迫保持在附近,而不同類的實(shí)例將被推得很遠(yuǎn)。

對(duì)于每個(gè)已知的i類∈ Kt,我們維持一個(gè)向量pi的原型。讓fc∈ rd是由對(duì)象檢測器的中間層為c類對(duì)象生成的特征向量。我們將對(duì)比損失定義如下:

其中D是任意距離函數(shù)? 定義相似和不相似項(xiàng)的接近程度。最小化這種損失將確保在潛在空間中實(shí)現(xiàn)所需的類分離。

每個(gè)類對(duì)應(yīng)的特征向量的平均值用來創(chuàng)建類原型集:P={p0···pC}。維護(hù)每個(gè)原型向量是ORE的一個(gè)關(guān)鍵組成部分。隨著整個(gè)網(wǎng)絡(luò)的端到端訓(xùn)練,類原型也應(yīng)該隨著組成特征的逐漸變化而逐漸演化(因?yàn)殡S機(jī)梯度下降在每次迭代中更新一小步權(quán)重)。我們維護(hù)一個(gè)固定長度的隊(duì)列qi,每個(gè)類用于存儲(chǔ)相應(yīng)的特征。特性存儲(chǔ)Fstore={q0···qC},將類特定的特性存儲(chǔ)在相應(yīng)的隊(duì)列中。這是一種可伸縮的方法,用于跟蹤特征向量如何隨著訓(xùn)練而演化,因?yàn)榇鎯?chǔ)的特征向量的數(shù)量由C限定× Q、 其中Q是隊(duì)列的最大大小。

算法1概述了在計(jì)算集群損失時(shí)如何管理類原型。只有在完成一定數(shù)量的burnin迭代(Ib)之后,我們才開始計(jì)算損耗。這使得初始的特征嵌入能夠使自己成熟,從而對(duì)類信息進(jìn)行編碼。從那時(shí)起,我們使用Eqn計(jì)算聚類損失。1.在每個(gè)Ip迭代之后,計(jì)算一組新的類原型Pnew(第8行)。然后用動(dòng)量參數(shù)對(duì)P和Pnew進(jìn)行加權(quán),更新現(xiàn)有的原型Pη. 這允許類原型逐漸演化,并跟蹤以前的上下文。將計(jì)算出的聚類損失加入到標(biāo)準(zhǔn)檢測損失中,并進(jìn)行反向傳播,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的端到端學(xué)習(xí)。

用RPN自動(dòng)標(biāo)注未知量

在計(jì)算聚類損失時(shí),用Eqn。1,我們將輸入特征向量fc與原型向量進(jìn)行了對(duì)比,原型向量中還包括一個(gè)未知對(duì)象的原型(c)∈ {0,1,…,C},其中0表示未知類)。這將要求未知對(duì)象實(shí)例被標(biāo)記為未知地面真值類,這實(shí)際上是不可行的,因?yàn)樵谝呀?jīng)注釋的大規(guī)模數(shù)據(jù)集中重新注釋每個(gè)圖像的所有實(shí)例的艱巨任務(wù)。

作為代理,我們建議自動(dòng)將圖像中的一些對(duì)象標(biāo)記為潛在的未知對(duì)象。為此,我們依賴于區(qū)域建議網(wǎng)絡(luò)(RPN)是類不可知的這一事實(shí)。給定一個(gè)輸入圖像,RPN為前景和背景實(shí)例生成一組邊界框預(yù)測,以及相應(yīng)的對(duì)象性得分。我們將那些具有高目標(biāo)性得分,但不與地面真值對(duì)象重疊的方案標(biāo)記為潛在未知對(duì)象。簡單地說,我們選擇top-k背景區(qū)域方案,按其對(duì)象性得分排序,作為未知對(duì)象。這個(gè)看似簡單的啟發(fā)式方法可以獲得很好的性能。5.

基于能量的未知標(biāo)識(shí)符

鑒于特征(f∈ F) 在潛空間F及其相應(yīng)的標(biāo)號(hào)l中∈ 五十、 我們?cè)噲D學(xué)習(xí)能量函數(shù)E(F,L)。我們的公式基于基于能量的模型(EBMs)[27],它學(xué)習(xí)一個(gè)函數(shù)E(·),用一個(gè)輸出標(biāo)量E(F):rd來估計(jì)觀測變量F和可能的輸出變量L集合之間的相容性→ R。EBMs的內(nèi)在能力是為分布中的數(shù)據(jù)分配低能量值,反之亦然,這促使我們使用能量度量來表征樣本是否來自未知類別。具體來說,我們使用亥姆霍茲自由能公式,其中L中所有值的能量都是組合的,

其中T是溫度參數(shù)。softmax層之后的網(wǎng)絡(luò)輸出與類比能量值的吉布斯分布之間存在簡單的關(guān)系[34]。這可以表述為,

其中p(l | f)是標(biāo)簽l的概率密度,gl(f)是分類頭g(.)的第l分類邏輯。利用這種對(duì)應(yīng)關(guān)系,我們用logit定義分類模型的自由能,如下所示:

上面的公式為我們提供了一種自然的方法,將標(biāo)準(zhǔn)更快的R-CNN[54]的分類頭轉(zhuǎn)換為能量函數(shù)。由于我們用對(duì)比聚類法在潛在空間中實(shí)施了清晰的分離,我們看到了如圖3所示的已知類數(shù)據(jù)點(diǎn)和未知數(shù)據(jù)點(diǎn)的能級(jí)的清晰分離。根據(jù)這一趨勢,我們對(duì)已知和未知能量值的能量分布進(jìn)行了建模ξkn(f)和ξ一組移位威布爾分布。與Gamma分布、指數(shù)分布和正態(tài)分布相比,這些分布與一個(gè)小的驗(yàn)證集(已知和未知實(shí)例)的能量數(shù)據(jù)非常吻合。學(xué)習(xí)到的分布可以用來標(biāo)記一個(gè)未知的預(yù)測,如果ξ千牛(f)ξ璝(f)。

減輕遺忘

在識(shí)別出未知數(shù)之后,一個(gè)開放世界探測器的一個(gè)重要的必要條件是能夠?qū)W習(xí)新的類,當(dāng)提供一些感興趣的未知數(shù)類的標(biāo)記示例時(shí)。重要的是,以前任務(wù)的培訓(xùn)數(shù)據(jù)此時(shí)將不存在

從零開始再培訓(xùn)不是一個(gè)可行的解決方案。僅使用新的類實(shí)例進(jìn)行訓(xùn)練將導(dǎo)致災(zāi)難性地忘記以前的類。我們注意到,已經(jīng)開發(fā)了許多相關(guān)的方法來緩解這種遺忘,包括基于參數(shù)正則化的方法[2,24,29,66],范例重放[6,51,37,5],動(dòng)態(tài)擴(kuò)展網(wǎng)絡(luò)[39,60,56]和元學(xué)習(xí)[50,25]。

我們基于[49,26,62]的最新見解,這些見解將示例重播的重要性與其他更復(fù)雜的解決方案進(jìn)行了比較。具體而言,Prabhu等人[49]回顧了復(fù)雜的持續(xù)學(xué)習(xí)方法所取得的進(jìn)展,并表明增量學(xué)習(xí)中用于重放的貪婪樣本選擇策略始終比最先進(jìn)的方法有很大的優(yōu)勢。Knoblauch等人[26]從理論上證明了重放方法的無理威力。他們證明了一個(gè)最優(yōu)的連續(xù)學(xué)習(xí)者解決了一個(gè)NP難問題,并且需要無限的記憶。Wang等人[62]在相關(guān)的少量鏡頭目標(biāo)檢測設(shè)置中發(fā)現(xiàn),存儲(chǔ)少量示例和回放的有效性是有效的。這促使我們使用相對(duì)簡單的ORE方法來減輕遺忘,也就是說,我們存儲(chǔ)了一組平衡的范例,并在每個(gè)增量步驟之后對(duì)模型進(jìn)行微調(diào)。在每一點(diǎn)上,我們確保每個(gè)類的最少Nex實(shí)例出現(xiàn)在范例集中。

實(shí)驗(yàn)和結(jié)果

我們提出了一個(gè)綜合評(píng)估協(xié)議來研究開放世界檢測器在為某些未知項(xiàng)提供標(biāo)簽時(shí)識(shí)別未知項(xiàng)、檢測已知類和逐步學(xué)習(xí)新類的性能。

開放世界評(píng)估協(xié)議

數(shù)據(jù)拆分:

我們把類分成一組任務(wù)T={T1,···Tt,·······························。特定任務(wù)的所有類都將在時(shí)間點(diǎn)t引入系統(tǒng)。在學(xué)習(xí)Tt時(shí),所有的班級(jí)τ : τ<t} 將被視為已知和{tτ : τ>t} 將被視為未知。對(duì)于這個(gè)協(xié)議的一個(gè)具體實(shí)例,我們考慮來自pascalvoc[10]和MS-COCO[32]的類。我們將所有VOC類和數(shù)據(jù)分組為第一個(gè)任務(wù)T1。剩下的60類MS-COCO[32]被分為三個(gè)連續(xù)的任務(wù),每個(gè)任務(wù)都有語義漂移(見表1)。1). 從Pascal VOC和MS-COCO訓(xùn)練集分割的與上述圖像對(duì)應(yīng)的所有圖像構(gòu)成訓(xùn)練數(shù)據(jù)。對(duì)于評(píng)估,我們使用帕斯卡VOC測試分割和MS-COCO val分割。從每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)中提取1k圖像,留作驗(yàn)證。數(shù)據(jù)分割和代碼可以在https://github.com/JosephKJ/OWOD.

評(píng)估指標(biāo):

由于未知物體很容易與已知物體混淆,我們使用荒野影響(WI)度量[8]來明確描述這種行為。

其中PK是指在已知類和PK上進(jìn)行評(píng)估時(shí)模型的精度∪U是對(duì)已知和未知類進(jìn)行評(píng)估時(shí)的精確度,在召回水平R(所有實(shí)驗(yàn)中為0.8)下測量。理想情況下,WI應(yīng)該更小,因?yàn)楫?dāng)未知對(duì)象被添加到測試集時(shí),精度不能下降。除了WI之外,我們還使用絕對(duì)開集誤差(A-OSE)[43]來報(bào)告錯(cuò)誤分類為任何已知類的未知對(duì)象的數(shù)量。WI和A-OSE都隱式地度量模型在處理未知對(duì)象方面的有效性。

為了量化模型在存在新標(biāo)記類的情況下的增量學(xué)習(xí)能力,我們測量了IoU閾值為0.5時(shí)的平均精度(mAP)(與現(xiàn)有文獻(xiàn)[61,45]一致)。

實(shí)施細(xì)則

ORE使用標(biāo)準(zhǔn)的更快的R-CNN[54]目標(biāo)探測器和ResNet-50[20]主干。為了處理分類頭中可變數(shù)量的類,遵循增量分類方法[50、25、6、37],我們假設(shè)了預(yù)期的最大類數(shù)的界,并修改損失以僅考慮感興趣的類。這是通過將不可見類的分類logit設(shè)置為一個(gè)較大的負(fù)值(v),從而使它們對(duì)softmax的貢獻(xiàn)可以忽略不計(jì)(e)?v→ 0).

利用RoI頭部最后一個(gè)殘差塊的2048維特征向量進(jìn)行對(duì)比聚類。對(duì)比損失(定義見等式。1) 被添加到標(biāo)準(zhǔn)的更快的R-CNN分類和本地化損失中,并針對(duì)這些損失進(jìn)行了聯(lián)合優(yōu)化。在學(xué)習(xí)任務(wù)Ti時(shí),只有屬于Ti的類才會(huì)被標(biāo)記。在測試Ti時(shí),前面引入的所有類都將與Ti中的類一起標(biāo)記,并且未來任務(wù)的所有類都將標(biāo)記為“未知”。對(duì)于樣本回放,我們根據(jù)經(jīng)驗(yàn)選擇Nex=50,并對(duì)樣本內(nèi)存的大?。ㄒ悦霝閱挝唬┻M(jìn)行了敏感性分析。6.補(bǔ)充文件提供了進(jìn)一步的實(shí)施細(xì)節(jié)。

開放世界目標(biāo)檢測結(jié)果

表2顯示了在提議的開放世界評(píng)估協(xié)議上,ORE與更快的RCNN的比較。“甲骨文”探測器可以隨時(shí)訪問所有已知和未知的標(biāo)簽,并作為參考。在學(xué)習(xí)每個(gè)任務(wù)之后,WI和A-OSE度量用于量化未知實(shí)例與任何已知類的混淆程度。我們發(fā)現(xiàn)礦石的WI和AOSE分?jǐn)?shù)明顯較低,這是由于對(duì)未知物質(zhì)的顯式建模。當(dāng)在任務(wù)2中逐步標(biāo)記未知類別時(shí),我們發(fā)現(xiàn)基線檢測器在已知類別集(通過mAP量化)上的性能從56.16%顯著下降到4.076%。提出的平衡微調(diào)方法能夠以增加WI和a-OSE為代價(jià),將前一類的性能恢復(fù)到一個(gè)可觀的水平(51.09%),而ORE則能夠同時(shí)實(shí)現(xiàn)兩個(gè)目標(biāo):檢測已知類和降低未知類的影響。類似的趨勢也出現(xiàn)在任務(wù)3類中。由于缺乏任何未知的基本事實(shí),因此無法測量任務(wù)4的WI和A-OSE分?jǐn)?shù)。我們?cè)趫D4和補(bǔ)充部分中報(bào)告了定性結(jié)果,以及失效案例分析。我們?cè)赟ec進(jìn)行了廣泛的敏感性分析。6和補(bǔ)充部分。

增量目標(biāo)檢測結(jié)果

我們發(fā)現(xiàn)ORE對(duì)未知物體進(jìn)行清晰建模的能力產(chǎn)生了一個(gè)有趣的結(jié)果:它在增量目標(biāo)檢測(iOD)任務(wù)中表現(xiàn)良好,而不是最先進(jìn)的(Tab)。3). 這是因?yàn)椋琌RE減少了未知對(duì)象被分類為已知對(duì)象的混淆,這使得檢測器可以增量地學(xué)習(xí)真實(shí)的前景對(duì)象。我們使用iOD域中使用的標(biāo)準(zhǔn)協(xié)議[61,45]來評(píng)估ORE,其中Pascal VOC 2007[10]中的一組類(10,5和最后一個(gè)類)由在剩余的一組類上訓(xùn)練的檢測器遞增地學(xué)習(xí)。值得注意的是,礦石是按原樣使用的,對(duì)Sec中介紹的方法沒有任何改變。4.將對(duì)比聚類(CC)和基于能量的未知識(shí)別(EBUI)進(jìn)行了對(duì)比分析,發(fā)現(xiàn)其性能比標(biāo)準(zhǔn)ORE有所下降。

討論與分析

6.1燒蝕礦石成分:

為了研究礦石中各組分的貢獻(xiàn),我們?cè)O(shè)計(jì)了仔細(xì)的燒蝕實(shí)驗(yàn)(表。4). 我們考慮將任務(wù)1引入模型的設(shè)置。自動(dòng)標(biāo)記方法(稱為ALU)與基于能量的未知識(shí)別(EBUI)相結(jié)合(第5行)比單獨(dú)使用其中任何一種方法(第3行和第4行)效果更好。將對(duì)比聚類(CC)添加到這個(gè)配置中,可以在處理未知數(shù)據(jù)(第7行)時(shí)提供最佳的性能,以WI和A-OSE來衡量。在已知類檢測(mAP-metric)中沒有嚴(yán)重的性能下降,這是未知識(shí)別的副作用。在第6行中,我們看到EBUI是一個(gè)關(guān)鍵組件,它的缺失會(huì)增加WI和a-OSE得分。因此,礦石中的每種組分都對(duì)未知的鑒定起著至關(guān)重要的作用。

6.2樣本內(nèi)存大小敏感性分析:

我們的平衡微調(diào)策略要求存儲(chǔ)每個(gè)類至少有Nex個(gè)實(shí)例的示例圖像。我們?cè)趯W(xué)習(xí)任務(wù)2時(shí)改變Nex,并將結(jié)果報(bào)告在表5中。我們發(fā)現(xiàn)平衡微調(diào)在提高先前已知類的準(zhǔn)確性方面非常有效,即使每個(gè)類只有至少10個(gè)實(shí)例。然而,我們發(fā)現(xiàn)將Nex增加到較大的值并沒有幫助,同時(shí)也會(huì)對(duì)未知的處理方式產(chǎn)生不利影響(從WI和A-OSE得分可以明顯看出)。因此,通過驗(yàn)證,我們?cè)谒袑?shí)驗(yàn)中將Nex設(shè)置為50,這是平衡已知類和未知類性能的最佳點(diǎn)。

6.3與開放式探測器的比較:

在封閉集數(shù)據(jù)(在Pascal VOC 2007上訓(xùn)練和測試)和開放集數(shù)據(jù)(測試集包含來自MS-COCO的相同數(shù)量的未知圖像)上評(píng)估檢測器時(shí),檢測器的mAP值有助于測量檢測器如何處理未知實(shí)例。理想情況下,不應(yīng)出現(xiàn)性能下降。我們將礦石與最近米勒等人提出的開集探測器進(jìn)行了比較。我們從標(biāo)簽上找到。6由于對(duì)未知實(shí)例的有效建模,礦石性能的下降遠(yuǎn)低于[43]。

6.4聚類損失和t-SNE[38]可視化:

我們用對(duì)比聚類損失(Eqn)來直觀地觀察訓(xùn)練時(shí)形成的聚類的質(zhì)量。1) 對(duì)于任務(wù)1,我們?cè)趫D5(a)中看到形成良好的簇。圖例中的每個(gè)數(shù)字對(duì)應(yīng)于任務(wù)1中引入的20個(gè)類。標(biāo)簽20表示未知類。重要的是,我們看到未知實(shí)例也得到了聚類,這加強(qiáng)了對(duì)比聚類中使用的自動(dòng)標(biāo)記未知的質(zhì)量。在圖5(b)中,我們繪制了對(duì)比聚類損失與訓(xùn)練迭代的對(duì)比圖,在圖中我們看到了逐漸減少的趨勢,這表明了良好的收斂性。

結(jié)論

充滿活力的目標(biāo)檢測社區(qū)將標(biāo)準(zhǔn)數(shù)據(jù)集上的性能基準(zhǔn)大大提高。這些數(shù)據(jù)集和評(píng)估協(xié)議的封閉性阻礙了進(jìn)一步的進(jìn)展。我們引入了開放世界的目標(biāo)檢測,其中目標(biāo)檢測器能夠?qū)⑽粗獙?duì)象標(biāo)記為未知對(duì)象,并隨著模型暴露于新的標(biāo)簽而逐漸學(xué)習(xí)未知對(duì)象。我們的主要?jiǎng)?chuàng)新點(diǎn)包括用于未知檢測的基于能量的分類器和用于開放世界學(xué)習(xí)的對(duì)比聚類方法。我們希望,我們的工作將沿著這一重要和開放的方向推動(dòng)進(jìn)一步的研究。

補(bǔ)充材料在本補(bǔ)充材料中,我們提供了由于篇幅限制而無法包含在主要論文中的其他細(xì)節(jié),包括實(shí)驗(yàn)分析、實(shí)現(xiàn)細(xì)節(jié)、討論和結(jié)果,這些都有助于我們進(jìn)一步深入了解所提出的開放世界目標(biāo)檢測方法。我們討論:

?特征存儲(chǔ)隊(duì)列大小的敏感性分析,動(dòng)量參數(shù)η, 聚類損失裕度? 能量計(jì)算中的溫度參數(shù)。

?對(duì)比聚類的其他細(xì)節(jié)

?更具體的實(shí)施細(xì)節(jié)。

?關(guān)于故障案例的討論。

?增量目標(biāo)檢測的相關(guān)工作。

?礦石的一些定性結(jié)果。

A.

以秒為單位改變FStore的隊(duì)列大小。4.1,我們解釋了如何使用類特定的隊(duì)列qi來存儲(chǔ)用于計(jì)算類原型的特征向量。超參數(shù)Q控制每個(gè)qi的大小。在這里,我們?cè)趯W(xué)習(xí)任務(wù)1的同時(shí)改變Q,并在Tab中報(bào)告結(jié)果。7.在不同Q值的實(shí)驗(yàn)中,我們觀察到了相對(duì)相似的性能。這可以歸因于這樣一個(gè)事實(shí):在定義了一個(gè)原型之后,它會(huì)周期性地用新觀察到的特征進(jìn)行更新,從而有效地自我進(jìn)化。因此,用于計(jì)算這些原型(P和Pnew)的特征的實(shí)際數(shù)量不是很重要。我們用Q=20做所有的實(shí)驗(yàn)。

敏感性分析η

動(dòng)量參數(shù)η 控制類原型更新的速度,如算法1所述η 意味著新計(jì)算的原型對(duì)當(dāng)前類原型的影響較小。我們從標(biāo)簽上找到。8當(dāng)原型更新緩慢時(shí)(較大的η). 這個(gè)結(jié)果是直觀的,因?yàn)槁淖兙垲愔行挠兄诜€(wěn)定對(duì)比學(xué)習(xí)。

改變邊距(?) 在Lcont

margin參數(shù)? 在對(duì)比聚類中,損失Lcont(Eqn。1) 定義輸入特征向量與潛在空間中不同類原型之間的最小距離。正如我們?cè)赥ab中看到的。在學(xué)習(xí)第一個(gè)任務(wù)的同時(shí)增加邊距,可以提高已知類的性能以及未知類的處理方式。這意味著潛在空間中較大的分離對(duì)礦石有利。

改變等式中的溫度(T)。4

我們?cè)诜匠讨泄潭藴囟葏?shù)(T)。所有實(shí)驗(yàn)中4比1。將能量稍微軟化到T=2,在未知的檢測中會(huì)有輕微的改善,但是增加能量會(huì)進(jìn)一步傷害,從Tab中可以明顯看出。10

關(guān)于對(duì)比聚類的更多細(xì)節(jié)

使用對(duì)比聚類來確保潛在空間的分離的動(dòng)機(jī)有兩個(gè)方面:1)它使模型能夠?qū)⑽粗獢?shù)據(jù)與已知數(shù)據(jù)分開進(jìn)行聚類,從而提高未知數(shù)據(jù)的識(shí)別能力;2) 它確保每個(gè)類的實(shí)例與其他類很好地分離,減輕了遺忘問題。

從RoI頭部的剩余塊(圖6)中得到的2048 dim特征向量進(jìn)行對(duì)比聚類。對(duì)比損失被添加到更快的R-CNN損失中,整個(gè)網(wǎng)絡(luò)被端到端地訓(xùn)練。因此,在更快的R-CNN管道中,包括RoI頭中的剩余塊在內(nèi)的網(wǎng)絡(luò)的所有部分都將使用對(duì)比聚類丟失的梯度進(jìn)行更新。

進(jìn)一步實(shí)施細(xì)節(jié)

我們完成了與實(shí)現(xiàn)細(xì)節(jié)相關(guān)的討論。5.2這里。我們?cè)?個(gè)nvidiav100gpu的服務(wù)器上進(jìn)行了實(shí)驗(yàn),有效批量大小為8,使用SGD,學(xué)習(xí)率為0.01。每項(xiàng)任務(wù)學(xué)習(xí)8個(gè)階段(~ 5萬次迭代)。將特征存儲(chǔ)的隊(duì)列大小設(shè)置為20。我們?cè)?k次迭代后啟動(dòng)聚類,并在每3k次迭代后使用動(dòng)量參數(shù)0.99更新聚類原型。歐幾里德距離用作等式中的距離函數(shù)D。1.保證金(?) 設(shè)置為10。為了自動(dòng)標(biāo)記RPN中的未知項(xiàng),我們選擇top-1背景方案,按其objectness得分排序。基于能量的分類頭中的溫度參數(shù)設(shè)置為1。該代碼在PyTorch[44]中使用Detectron 2[63]實(shí)現(xiàn)??煽啃詭靃53]用于模擬能量分布。我們公開發(fā)布所有代碼以促進(jìn)可復(fù)制研究:https://github.com/JosephKJ/OWOD.

增量目標(biāo)檢測相關(guān)工作

“類增量對(duì)象檢測”(iOD)設(shè)置考慮隨著時(shí)間的推移逐漸觀察到類,并且學(xué)習(xí)者必須適應(yīng),而不必從頭開始對(duì)舊類進(jìn)行再培訓(xùn)。流行的方法[61,28,18,7]使用知識(shí)提煉[21]作為一種正則化措施,以避免在訓(xùn)練新課程時(shí)忘記舊的課程信息。具體來說,Shmelkov等人[61]通過從前一階段模型中提取分類和回歸輸出,重新利用快速R-CNN進(jìn)行增量學(xué)習(xí)。除了提取模型輸出,Chen等人[7]和Li等人[28]還提取了中間網(wǎng)絡(luò)特征。Hao等人[18]建立在更快的R-CNN上,并使用一個(gè)學(xué)生-教師框架來適應(yīng)RPN。Acharya等人[1]提出了一種用于在線檢測的重放機(jī)制。最近,Peng等人[45]將自適應(yīng)蒸餾技術(shù)引入快速R-CNN。他們的方法是目前iOD的最新技術(shù)。然而,這些方法不能在一個(gè)開放的環(huán)境中工作,這是本文工作的重點(diǎn),并且不能識(shí)別未知對(duì)象。

時(shí)間和存儲(chǔ)費(fèi)用:

ORE的訓(xùn)練和推理比標(biāo)準(zhǔn)的R-CNN快0.1349秒/iter和0.009秒/iter。維護(hù)FStore的存儲(chǔ)開銷可以忽略不計(jì),示例內(nèi)存(對(duì)于Nex=50)大約需要34mb。

使用基于Softmax的未知標(biāo)識(shí)符

我們將未知識(shí)別標(biāo)準(zhǔn)修改為max(softmax(logits))<t。對(duì)于t={0.3,0.5,0.7}:A-OSE,WI和mAP(平均值和標(biāo)準(zhǔn)偏差)為11815± 352.13, 0.0436 ± 0.009和55.22± 0.02. 這不如礦石。

定性結(jié)果

我們?cè)趫D8到圖13中展示了礦石的定性結(jié)果。我們發(fā)現(xiàn),礦石能夠識(shí)別各種未知實(shí)例,并使用所提出的對(duì)比聚類和基于能量的未知識(shí)別方法進(jìn)行增量學(xué)習(xí)。所有這些圖像中的子圖(a)顯示了已識(shí)別的未知實(shí)例以及探測器已知的其他實(shí)例。相應(yīng)的子圖(b)顯示了增量添加新類后來自同一檢測器的檢測。

關(guān)于失效案例的討論

遮擋和物體擁擠的情況下,我們的方法往往會(huì)變得混亂(外部存儲(chǔ),隨身聽和包沒有檢測到未知的圖)。11, 13). 困難的觀點(diǎn)(如背面)也會(huì)導(dǎo)致一些錯(cuò)誤的分類(長頸鹿)→無花果馬。4, 12). 我們還注意到,探測小的未知物體與大的已知物體共存是困難的。由于礦石是這方面的第一個(gè)努力方向,我們希望這些確定的不足之處將成為進(jìn)一步研究的基礎(chǔ)。

子圖(a)是我們的方法在學(xué)習(xí)了幾個(gè)不包括apple和orange等類的類之后產(chǎn)生的結(jié)果。我們能夠識(shí)別它們并正確地將它們標(biāo)記為未知。一段時(shí)間后,當(dāng)模型最終被教導(dǎo)檢測蘋果和橙色時(shí),這些實(shí)例被正確標(biāo)記,如圖(b)所示;不忘如何發(fā)現(xiàn)人。一個(gè)未識(shí)別的類實(shí)例仍然存在,并且被成功地檢測為未知。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • MoCoV2 Improved Baselines with Momentum Contrastive Learn...
    Valar_Morghulis閱讀 1,386評(píng)論 0 0
  • 摘要:到目前為止,大多數(shù)現(xiàn)有的自監(jiān)督學(xué)習(xí)方法都是針對(duì)圖像分類而設(shè)計(jì)和優(yōu)化的。由于圖像級(jí)預(yù)測和像素級(jí)預(yù)測之間的差異,...
    Valar_Morghulis閱讀 2,299評(píng)論 0 0
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,506評(píng)論 19 139
  • Spring Web MVC Spring Web MVC 是包含在 Spring 框架中的 Web 框架,建立于...
    Hsinwong閱讀 22,931評(píng)論 1 92
  • LambdaNetworks: Modeling Long-Range Interactions Without ...
    Valar_Morghulis閱讀 1,156評(píng)論 0 2

友情鏈接更多精彩內(nèi)容