DA-Net

聚類在研究和工業(yè)中有許多應(yīng)用。但是,傳統(tǒng)的聚類方法(例如K-means,DBSCAN和HAC)強(qiáng)加了過于簡化的假設(shè),因此不適合面對(duì)聚類。為了適應(yīng)現(xiàn)實(shí)問題的分布,一種自然的方法是使用圖卷積網(wǎng)絡(luò)(GCN)來增強(qiáng)聚類的功能。但是,GCN只能利用本地信息,而忽略了群集的總體特征。在本文中,我們針對(duì)人臉聚類的任務(wù)提出了一種密度感知特征嵌入網(wǎng)絡(luò)(DA-Net),該網(wǎng)絡(luò)利用本地和非本地信息來學(xué)習(xí)魯棒的特征嵌入。具體來說,DA-Net使用GCN在本地聚合要素,然后使用密度鏈合并非本地信息,該密度鏈?zhǔn)菑牡兔芏鹊礁呙芏鹊娜四樻?。該密度鏈利用了?shù)據(jù)集中人臉圖像的不均勻分布。然后,LSTM將密度鏈作為輸入以生成最終的特征嵌入。生成此嵌入后,可以使用傳統(tǒng)的聚類方法(例如基于密度的聚類)來獲得最終的聚類結(jié)果。大量的實(shí)驗(yàn)證明了所提出的特征嵌入方法的有效性,該方法可以在公共基準(zhǔn)上達(dá)到最新的性能。

介紹

由于人臉檢測(cè)和識(shí)別技術(shù)的進(jìn)步,可以方便地從互聯(lián)網(wǎng)或監(jiān)控?cái)z像機(jī)中收集人臉圖像,并進(jìn)一步用強(qiáng)大的特征向量來表示。在這種情況下,需要自動(dòng)分析人臉特征,而聚類是具有廣泛應(yīng)用的實(shí)用工具。先前開發(fā)的非深度聚類方法使用某些全局超參數(shù)來確定聚類行為。例如,DBSCAN依靠閾值來確定兩個(gè)節(jié)點(diǎn)是否應(yīng)屬于同一群集,分層群集方法還采用一些標(biāo)準(zhǔn)來確定何時(shí)應(yīng)停止群集拆分或合并。但是,這些方法在具有復(fù)雜分布的面部圖像數(shù)據(jù)集上效果不佳,因?yàn)槊總€(gè)人的圖像分布的邊界條件的變化使得無法同時(shí)對(duì)面部圖像進(jìn)行足夠好的聚類。因此,需要一種可以學(xué)會(huì)單獨(dú)處理每個(gè)群集的方法?,F(xiàn)有的基于深度學(xué)習(xí)的人臉聚類方法主要集中于對(duì)樣本間關(guān)系進(jìn)行分類。例如,[23,28]中的方法學(xué)會(huì)識(shí)別它們是否應(yīng)該屬于在一起的成對(duì)關(guān)系,[27]中的方法學(xué)會(huì)對(duì)幾個(gè)樣本是否屬于同一聚類進(jìn)行分類。

現(xiàn)有的非深度學(xué)習(xí)和深度學(xué)習(xí)方法直接使用來自特征提取模塊的視覺特征,這引入了許多問題。具體來說,由于一個(gè)人的圖像在姿勢(shì),照明和相機(jī)設(shè)置的變化方面可能與另一個(gè)人的圖像非常不同,因此類別內(nèi)特征的分布通常對(duì)于不同的人是不同的,并且所學(xué)的視覺特征或手精心制作的樣本仍無法適應(yīng)這種分布變化,因此,這些聚類方法很容易將離群樣本包含到聚類中。圖1(a)顯示了一個(gè)示例,其中兩個(gè)身份的人臉圖像是如此接近,以至于很難基于原始特征將它們簡單地聚類。在本文中,我們旨在通過使用來自鄰近圖像的信息來學(xué)習(xí)圖像的上下文感知特征嵌入。更好地學(xué)習(xí)的特征可通過簡化類間特征分布來促進(jìn)人臉聚類。

受圖卷積網(wǎng)絡(luò)(GCN)在圖結(jié)構(gòu)數(shù)據(jù)[9、22、7、20]上的成功啟發(fā),可以通過將每個(gè)圖像視為圖中的一個(gè)節(jié)點(diǎn),使用相關(guān)圖像來完善圖像的特征。但是,標(biāo)準(zhǔn)的GCN通常依賴于一階鄰居之間的親和力,因此生成的要素仍然缺少來自較長距離要素的信息。為了考慮更長距離的特征,我們必須堆疊GCN層,但是其涉及的節(jié)點(diǎn)數(shù)量會(huì)在幾何上增加,因此在先前的文獻(xiàn)中[11]發(fā)現(xiàn)這種方法無效。例如,假設(shè)一個(gè)樣本有10個(gè)鄰居,那么沿著圖形邊緣傳遞的消息的10個(gè)步驟可能對(duì)應(yīng)于GCN中涉及的1010個(gè)樣本/節(jié)點(diǎn),這需要太多的內(nèi)存和計(jì)算量才能用于訓(xùn)練或推理。

由于將整個(gè)圖形包含在GCN框架中不是一種理想的選擇,因此我們需要選擇具有最重要信息的節(jié)點(diǎn)作為網(wǎng)絡(luò)輸入?,F(xiàn)在的問題是應(yīng)該選擇哪個(gè)節(jié)點(diǎn)。由于拍照習(xí)慣和面部檢測(cè)模型的緣故,在良好條件下捕獲的面部(例如從具有適當(dāng)照明和中性面部表情的正面角度拍攝)更可能被檢測(cè)并注冊(cè)到數(shù)據(jù)集中,我們稱之為模型面孔。這些面孔應(yīng)該是我們要挑選的最有利的面孔,并且包含非本地信息中最相關(guān)的部分。如圖2所示,我們可以看到大多數(shù)面的偏航角都接近于0,特別是所有面的93.58%的角都在25度以內(nèi)。因此,問題仍然在于如何以較高的概率密度找到這些特征。

即使估計(jì)分布本身是不切實(shí)際的,我們?nèi)匀豢梢栽O(shè)法找到具有較高密度的特征,因此我們可以提取圖的更重要部分來表示非本地信息?;谝陨蟿?dòng)機(jī)來局部增強(qiáng)特征并通過模型特征表示非局部信息,我們提出了一種密度感知特征嵌入網(wǎng)絡(luò)(DA-Net),以匯總來自本地和非本地鄰居的相關(guān)信息。為了更具體地描述非本地部分,我們將在本文的其余部分中使用術(shù)語“遠(yuǎn)程”來指代它。 DA-Net具有兩個(gè)子網(wǎng)。第一個(gè)子網(wǎng)是基于GCN的本地集團(tuán)網(wǎng)絡(luò),旨在從包含在本地鄰居中的上下文信息中學(xué)習(xí)特征嵌入。第二個(gè)是基于CNN的遠(yuǎn)程鏈網(wǎng)絡(luò)。它沿著知識(shí)鏈將知識(shí)匯總為一條學(xué)習(xí)路徑,它從所考慮的樣本開始,逐漸移至附近的密度峰值/模型特征。密度鏈的例子如圖1(c)所示。

如上所述,具有更高密度的特征是具有更好條件的面部特征。因此,面部圖像及其附近的較高密度的面部圖像具有成為同一個(gè)人的可能性很高。因此,鏈傾向于描述一致的身份,這是鏈上每個(gè)要素的圖形中最重要的部分。生成嵌入在身份一致性鏈上的特征更有可能改善表示。這種方法受到[16]中假設(shè)的啟發(fā),其中聚類中心的特征是密度峰值比其他鄰居的密度更高,并且密度遠(yuǎn)大于其他聚類中心。考慮樣品附近的密度峰可以更好地發(fā)現(xiàn)遠(yuǎn)距離和密度感知信息。通過簡化從圖到鏈的關(guān)系,這種設(shè)計(jì)的網(wǎng)絡(luò)僅需要更新鏈上的功能,從而大大加快了訓(xùn)練和推理過程。

總而言之,(1)與專注于樣本間關(guān)系分類的傳統(tǒng)人臉聚類方法不同,我們通過學(xué)習(xí)上下文感知特征嵌入來改善人臉聚類問題,從而簡化了類間特征分布并可以大規(guī)模擴(kuò)展數(shù)據(jù)集。 (2)特征嵌入基于密度引導(dǎo)的接收?qǐng)觥K东@本地鄰居信息和遠(yuǎn)程集群級(jí)別的信息。在MS-Celeb-1M [6],YouTube Faces DB [26]和IJB-B [24]上獲得了出色的聚類結(jié)果。

2.相關(guān)工作

人臉聚類由于其龐大的數(shù)據(jù)規(guī)模,復(fù)雜的類內(nèi)特征分布以及不同類的模糊特征邊界而成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)的聚類方法,例如K-Means [12],光譜聚類[17]和DBSCAN [3],都依賴于數(shù)據(jù)分布的某些假設(shè),例如,聚類為凸形,相似大小或相同密度,當(dāng)實(shí)際分配與預(yù)期分配一致時(shí),可以達(dá)到最佳效果。但是,這些方法忽略了用于聚類的上下文信息,這不適用于現(xiàn)實(shí)世界中的人臉聚類。

基于上下文的人臉聚類。上下文信息有助于聚類面孔。 Shi等。 [18]在鄰域中建立了一個(gè)條件隨機(jī)場(chǎng),稱為條件對(duì)聚類,以促進(jìn)人臉聚類。 Lin等。 [10]學(xué)習(xí)了鄰域的最小覆蓋范圍,并通過基于密度的新策略估計(jì)了樣本間的相似性。詹等。 [28]將鄰域中的成對(duì)關(guān)系編碼為特征向量,然后學(xué)習(xí)確定兩個(gè)節(jié)點(diǎn)是否屬于同一類。與這些方法相比,GCN是一種用于圖形結(jié)構(gòu)化數(shù)據(jù)的更有效的工具,可以應(yīng)用于人臉聚類。 Wang等。 [23]提出了一種基于鏈接的GCN來預(yù)測(cè)樞紐節(jié)點(diǎn)與其鄰居之間連接的可能性。楊等。 [27]學(xué)會(huì)了在檢測(cè)-分割范例中進(jìn)行聚類,其中GCN-檢測(cè)從提案中選擇了高質(zhì)量的聚類,而GCN-分類則識(shí)別了異常值。但是,這些方法直接使用了特征提取模塊中的視覺特征,并且僅捕獲了短程本地信息。我們用于更新功能的方法是這些方法的補(bǔ)充。由于遠(yuǎn)程鄰居可能仍然對(duì)所關(guān)注的樣本包含一致的語義,因此我們建議使用兩個(gè)子網(wǎng)來聚合來自短距離鄰居和遠(yuǎn)程鄰居的相關(guān)信息。

基于GNN的特征學(xué)習(xí)。圖神經(jīng)網(wǎng)絡(luò)(GCN)自然地利用局部圖結(jié)構(gòu),并且可以學(xué)習(xí)諸如分類或鏈接預(yù)測(cè)之類的任務(wù)的更多判別特征。提出了Deep Walk [15],通過將SkipGram模型[13]與圖隨機(jī)游走相結(jié)合來生成圖嵌入。類似的方法(如node2vec和LINE [5])也獲得了出色的性能。漢密爾頓等。引入GraphSage [7]以歸納方式計(jì)算節(jié)點(diǎn)表示。它為每個(gè)節(jié)點(diǎn)采樣了一個(gè)固定大小的鄰域,然后執(zhí)行簡單的特征聚合,例如均值池,最大池和LSTM [8]。在這些方法中,特征學(xué)習(xí)中涉及的節(jié)點(diǎn)僅依賴于圖拓?fù)洌覀兊姆椒ㄍㄟ^定義密度感知圖另外利用群集級(jí)特征分布,因此對(duì)于人臉聚類更加有效。

自我監(jiān)督學(xué)習(xí)。我們的方法利用了簇的分布,可以看作是一種自我監(jiān)督方法[1,2],它利用密度信息來提高一般表示能力。

3.方法論

在我們的方法中,我們首先為每個(gè)樣本構(gòu)建一個(gè)密度感知的局部圖,然后利用DA-Net(密度感知特征嵌入網(wǎng)絡(luò))來利用所構(gòu)建的圖內(nèi)的信息進(jìn)行聚類。 DA-Net由一個(gè)本地集團(tuán)子網(wǎng)和一個(gè)遠(yuǎn)程鏈子網(wǎng)組成,并為每個(gè)樣本輸出增強(qiáng)的功能。將所有樣本的獲得的特征嵌入饋送到基于密度的聚類策略,以產(chǎn)生最終的聚類。

3.1。資料密度

我們?cè)贙NN圖中對(duì)人臉圖像進(jìn)行建模,其中每個(gè)圖像都由一個(gè)節(jié)點(diǎn)表示,并與其K個(gè)最近的鄰居相連。對(duì)于節(jié)點(diǎn)vi,其K最近鄰居由N(v)表示。要利用非本地信息,必須壓縮整個(gè)圖并提取最重要的節(jié)點(diǎn)。令f(vi)是通過其L2范數(shù)歸一化的節(jié)點(diǎn)vi的CNN特征,我們相信在特征空間中每個(gè)人都會(huì)有一個(gè)分布。

給定人物l的概率密度函數(shù)為pl(·),值pl(vi)反映了人物l拍攝的節(jié)點(diǎn)vi的概率。實(shí)際上,幾乎不可能找到確切的分布?;谟^察到不同人的特征分布在大多數(shù)時(shí)間都是非重疊的,我們利用數(shù)據(jù)密度ρ(vi)近似感興趣的人的概率。有了ρ的適當(dāng)定義,我們具有漸近性質(zhì)

| D |的ρ(vi)→pl(vi) →∞(1)

其中D是為該人收集的數(shù)據(jù)。這樣,具有高數(shù)據(jù)密度的特征往往具有很高的概率成為他,因此它是包含該人重要面部信息的特征。

考慮節(jié)點(diǎn)vi,根據(jù)親和圖上vi的鄰居計(jì)算數(shù)據(jù)密度ρ(vi)。即N(vi),即:

ρ(vi)=?f(vi),f(vj)?,(2)vj∈N(vi)

其中它們的內(nèi)積?f(vi),f(vj)?測(cè)量節(jié)點(diǎn)vi和vj之間的相似度。

3.2。密度感知圖的構(gòu)建

DA-Net通過構(gòu)造密度感知圖來利用上下文信息。該圖捕獲了群集級(jí)別的結(jié)構(gòu),該結(jié)構(gòu)逐漸將考慮圖像與其密度更高的非本地鄰居相關(guān)聯(lián)。對(duì)于節(jié)點(diǎn)vk,我們首先生成一個(gè)從vk到附近密度峰值的鏈圖。鏈圖以多個(gè)步驟增長,并且每個(gè)步驟將一個(gè)節(jié)點(diǎn)順序添加到鏈中。

對(duì)于非vk,我們首先生成一個(gè)從vk到附近密度峰值的鏈圖。鏈圖以多個(gè)步驟增長,并且每個(gè)步驟將一個(gè)節(jié)點(diǎn)順序添加到鏈中。為了表示清楚起見,我們將鏈定義為C(vk)= {c1k,c2k,...,cNk},其中cik是鏈上的節(jié)點(diǎn),c1k是節(jié)點(diǎn)vk。假設(shè)在步驟i處添加的節(jié)點(diǎn)為cik,則要添加的節(jié)點(diǎn)ci + 1是密度為k高的最近鄰居:

ci + 1 = argmax {?f(ci),f(v)?,v∈{u |ρ(u)>ρ(ci)}。 v

(3)鏈增長,直到要添加的節(jié)點(diǎn)與最后一個(gè)節(jié)點(diǎn)之間的內(nèi)部乘積小于預(yù)定值。如圖3所示,鏈逐漸從相關(guān)節(jié)點(diǎn)移動(dòng)到最相關(guān)的密度峰。

如第3.1節(jié)所述,類似于c1k且密度較高的相鄰樣本更有可能是模型特征,并且對(duì)應(yīng)于同一個(gè)人。因此,這些具有較高數(shù)據(jù)密度的樣本在表示群集結(jié)構(gòu)和指導(dǎo)節(jié)點(diǎn)c1k的特征更新方面更有用。

給定鏈圖{cik} Ni = 1,我們通過在鏈中的每個(gè)節(jié)點(diǎn)上附加一個(gè)集團(tuán)來擴(kuò)展它。集團(tuán)中的節(jié)點(diǎn)包括cik和cik的最近鄰居N(cik)。為了減輕無關(guān)鄰居的影響,我們通過執(zhí)行閾值選擇方案來修剪群體,并且修剪的節(jié)點(diǎn)用以下形式表示:

N'(cik)= {v | ?f(v),f(cik)?>τ,v∈N(cik)},(4)其中,τ是基于原始特征的經(jīng)驗(yàn)值,在我們的實(shí)驗(yàn)中,τ= 0.6。

3.3。本地集團(tuán)網(wǎng)絡(luò)

本地集團(tuán)網(wǎng)絡(luò)基于GCN,旨在更新鏈中每個(gè)節(jié)點(diǎn)的功能。如圖4所示,對(duì)于每個(gè)節(jié)點(diǎn),它將相應(yīng)的集團(tuán)作為輸入。給定集團(tuán)N'(cik),我們定義相似性矩陣A(cik)∈R | N'(cik)| x | N'(cik)| ,其元素由內(nèi)部乘積計(jì)算。初始特征矩陣將集團(tuán)中的所有原始特征連接起來,表示為F 0(cik)∈R | N'(cik)| xd。在GCN的每一層中,我們通過以下方式更新特征矩陣:

Fl + 1(cik)=σ(α·Fl(cik)+(1 ?α)·D-1(cik)A(cik)Fl(cik)Wl),(5)

其中F l(cik)是屬于cik集團(tuán)的所有節(jié)點(diǎn)的第l個(gè)GCN層的更新特征,D(cik)是Di,i(cik)=??jAi,j(cik ),σ是ReLU函數(shù),而α是一個(gè)可學(xué)習(xí)的參數(shù),它平衡了更新功能及其上下文的重要性。直觀地講,該公式表示了對(duì)集團(tuán)中原始特征進(jìn)行加權(quán)平均,將其與Wl相結(jié)合,與先前特征Fl(cik)相結(jié)合,然后進(jìn)行非線性激活的過程。這類似于CNN模塊,但在具有任意拓?fù)涞膱D形上進(jìn)行操作。我們的方法通過將大圖分解為多個(gè)團(tuán),從而大大加快了訓(xùn)練和推理的速度。對(duì)于GCN的L層,我們從F L(cik)的對(duì)應(yīng)行中獲取節(jié)點(diǎn)cik的嵌入特征,用φ(cik)表示。

3.4。遠(yuǎn)程鏈網(wǎng)

遠(yuǎn)程鏈網(wǎng)絡(luò)本質(zhì)上是基于CNN的注意力網(wǎng)絡(luò)。對(duì)于節(jié)點(diǎn)vk,由本地集團(tuán)網(wǎng)絡(luò)產(chǎn)生的鏈特征由{φ(c1k),φ(c2k),...,φ(cNk)}表示。受“按比例擴(kuò)大點(diǎn)積注意力” [21]的啟發(fā),我們使用變壓器架構(gòu)來進(jìn)一步更新節(jié)點(diǎn)功能,如圖5所示。

轉(zhuǎn)換器使用查詢,鍵和值形式的三元組。首先,它估計(jì)查詢特征,而查詢特征通常表示我們期望從給定樣本中提取的內(nèi)容。然后將查詢與每個(gè)鍵都有值的鍵列表進(jìn)行匹配。然后,將最終值返回為所有值的總和,這些值由鍵和查詢之間的親和力加權(quán)。

在我們的方法中,查詢要素應(yīng)編碼附近要素分布的結(jié)構(gòu)。構(gòu)造的鏈和關(guān)聯(lián)的特征應(yīng)對(duì)鄰域的密度變化具有魯棒性。因此,我們沿著從c1k到cNk的鏈應(yīng)用LSTM網(wǎng)絡(luò),該網(wǎng)絡(luò)包含以下更新過程:hi + 1 = LSTM(φ(ci + 1),hi),其中LSTM單位取特征

φ(ci + 1)和hi作為輸入,并輸出與節(jié)點(diǎn)ci + 1對(duì)應(yīng)的隱藏k狀態(tài)hi + 1。最后一步hN處的隱藏狀態(tài)k用作查詢q(vk)。鍵和值與鏈中的每個(gè)節(jié)點(diǎn)相關(guān)聯(lián),這些鍵和值從i = 1,...,N的特征sφ(cik)投影而來。對(duì)應(yīng)于cik的鍵和值分別用k(cik)和v(cik)表示,鏈C(vk)的鍵集和值集分別用K(vk)和V(vk)表示。

對(duì)于特征聚合,我們通過計(jì)算查詢和鍵之間的內(nèi)積來獲得w(cik)。通過使用softmax運(yùn)算對(duì)鏈內(nèi)的w(cik)進(jìn)行歸一化,即可獲得關(guān)注權(quán)重w?(cik)。

i q(v k)?k(c ik)

w?(ck)∝exp??√dkd,(6)

其中dk是k(cik)的維數(shù)。然后將注意力權(quán)重用于計(jì)算節(jié)點(diǎn)vk的最終嵌入:

,(7)

這正是針對(duì)節(jié)點(diǎn)vk提出的密度感知功能嵌入

討論:使用密度峰的遠(yuǎn)程鏈本質(zhì)上是連接可能來自同一類別的樣本。這樣,通過鏈進(jìn)行的特征學(xué)習(xí)可以有效地將同一類的特征拉在一起,這是聚類所需要的。圖6說明了從邊界樣品到密度峰的長距離鏈的影響。圖6(b)表明,本地集團(tuán)網(wǎng)絡(luò)可以使非常相似的特征更接近,形成幾個(gè)清晰的子模式,這可能會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果。我們的遠(yuǎn)程鏈將不同子模式中的樣本與局部密度峰值相關(guān)聯(lián),為每個(gè)類別獲得更緊湊的特征分布,并有助于更準(zhǔn)確的聚類。

3.5。連接圖生成

我們應(yīng)用基于密度的簡單聚類方法生成聚類。如算法1所示,我們的聚類方法包括兩個(gè)步驟。第一步是為相鄰節(jié)點(diǎn)生成邊,其時(shí)間復(fù)雜度為O(n log n)。第二步是通過連接邊找到聚類。它取決于查找連通圖的速度,而使用[4]查找簇的時(shí)間復(fù)雜度為O(log n)。而且,我們的功能還與其他聚類方法(例如K-Means,DBSCAN)兼容。

4.實(shí)驗(yàn)

數(shù)據(jù)集和評(píng)估指標(biāo)。我們提出的方法是在三個(gè)公眾面部聚類基準(zhǔn)MS-Celeb-1M [6],YouTube Faces DB [26]和IJB-B [24]上進(jìn)行評(píng)估的。 MS-Celeb-1M由10萬個(gè)身份和約1000萬張圖像組成。我們使用與[27]相同的設(shè)置將其分為訓(xùn)練和測(cè)試集。 YouTube Faces DB包含3,425個(gè)視頻和1,595個(gè)身份,我們?cè)谄渲惺褂?59個(gè)身份進(jìn)行培訓(xùn),在其他1,436個(gè)中進(jìn)行測(cè)試。 IJB-B由三組組成,分別包括512個(gè),1,024個(gè),1,845個(gè)身份和18,171個(gè),36,575個(gè),68,195個(gè)樣本,我們使用在MS-Celeb-1M上訓(xùn)練的模型來測(cè)試聚類。為了進(jìn)行公平的比較,我們?cè)谠u(píng)估MS-Celeb-1M和YouTube Faces DB時(shí)使用[27]提供的功能作為原始功能,并使用[23]提供的IJB-B功能。對(duì)于MS-Celeb-1M和YouTube Faces DB,我們采用成對(duì)回憶,精確度和F分?jǐn)?shù)來測(cè)量聚類性能,如[27]所示。對(duì)于IJB-B數(shù)據(jù)集,我們遵循其官方協(xié)議[24]并采用B-Cubed F得分進(jìn)行評(píng)估。

實(shí)施細(xì)節(jié)。在DA-Net中,本地集團(tuán)網(wǎng)絡(luò)使用兩層GCN,而遠(yuǎn)程鏈網(wǎng)絡(luò)使用兩層LSTM進(jìn)行查詢,對(duì)鍵和值進(jìn)行兩層線性變換。我們以端到端的方式培訓(xùn)DA-Net。本地集團(tuán)網(wǎng)絡(luò)將密度感知圖作為輸入來更新鏈上的特征。遠(yuǎn)程鏈網(wǎng)絡(luò)總結(jié)了鏈,以獲得最終的密度感知特征嵌入。我們對(duì)特征嵌入施加了softmax分類損失。該網(wǎng)絡(luò)以0.01的學(xué)習(xí)率和SGD優(yōu)化器進(jìn)行訓(xùn)練。除遠(yuǎn)程鏈網(wǎng)絡(luò)中我們使用K = 256最近鄰來查找局部密度外,大多數(shù)參數(shù)都是可學(xué)習(xí)的。

4.1。燒蝕分析

我們的消融研究是在MS-Celeb-1M上進(jìn)行的。為了更好地評(píng)估我們的方法,我們利用了四種功能。具體來說,原始表示原始功能;本地集團(tuán)網(wǎng)絡(luò)生成僅本地特征;當(dāng)以原始特征為輸入時(shí),遠(yuǎn)程鏈網(wǎng)絡(luò)僅輸出遠(yuǎn)程特征;整個(gè)框架會(huì)產(chǎn)生本地+遠(yuǎn)程功能。

本地集團(tuán)網(wǎng)絡(luò)和遠(yuǎn)程連鎖網(wǎng)絡(luò)。

我們從兩個(gè)方面評(píng)估我們方法的主要組成部分:(1)聚類性能; (2)特征嵌入的判別力。

集群性能。首先,當(dāng)使用連接的圖形生成模塊進(jìn)行聚類時(shí),我們從功能的不同設(shè)置評(píng)估聚類性能。如表1和表2所示,在MS-Celeb-1M數(shù)據(jù)集中,我們可以看到,短距離和長距離特征在F評(píng)分中分別比原始特征高出14.47%和9.68%。此外,將本地鄰居結(jié)構(gòu)與遠(yuǎn)程鏈結(jié)構(gòu)相結(jié)合,F(xiàn) +得分的短+遠(yuǎn)程特征達(dá)到90.60%。

具有判別力。我們利用ROC曲線說明了特征嵌入的判別力。如圖8所示,在相同的假陽性率下,short + long特征的真陽性率遠(yuǎn)高于其他特征。另一方面,當(dāng)應(yīng)用不同的組件時(shí),我們會(huì)虛擬化數(shù)據(jù)分布的演變。

網(wǎng)絡(luò)深度研究。如表5所示,GCN和LSTM的結(jié)構(gòu)越深,它們將實(shí)現(xiàn)的效果越好。我們認(rèn)為,更好的基礎(chǔ)網(wǎng)絡(luò)(盡管不是我們的重點(diǎn))可以進(jìn)一步改善性能。

特征分布分析。在我們的DA-Net之后,這些功能將與身份相關(guān)。換句話說,嵌入空間中的分布更加緊湊和有區(qū)別。要查看如何優(yōu)化分布,我們首先選擇10個(gè)接近的身份,并將它們的原始特征,僅局部特征和局部+遠(yuǎn)距離特征放到t-SNE映射訓(xùn)練中,以可視化其分布,如圖7所示。當(dāng)?shù)嘏上稻W(wǎng)絡(luò)傾向于將當(dāng)?shù)剜従泳奂谝黄?。但是,它無法識(shí)別遠(yuǎn)程關(guān)系,因此將不同的類組合到一個(gè)群集中。另一方面,遠(yuǎn)程鏈網(wǎng)絡(luò)捕獲了遠(yuǎn)鄰,但留下了稀疏的群集分布。在利用了本地和遠(yuǎn)程關(guān)系的優(yōu)勢(shì)之后,功能變得更加內(nèi)部類緊湊和內(nèi)部類區(qū)分。表2和表3中其他兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)也證明了我們的假設(shè)。

如前所述,我們使用一個(gè)簡單的標(biāo)記方案,該方案使用全局閾值來確定兩個(gè)功能是否來自同一類。但是,只要圖像分布保持變化,就無法防止合并不同類別并同時(shí)拆分相同類別的樣本。集群性能的敏感性反映了這一點(diǎn)。如圖9所示,本地+遠(yuǎn)程特征對(duì)聚類閾值更健壯。這是因?yàn)轭悆?nèi)特征分布的縮小,這大大簡化了聚類任務(wù)。

兼容性。我們的方法通過學(xué)習(xí)密度感知特征嵌入來改善人臉聚類。該嵌入與其他聚類方法兼容。如表4所示,使用本地特征和遠(yuǎn)距離特征進(jìn)行聚類的性能優(yōu)于使用原始特征的成對(duì)精度,召回率和F分?jǐn)?shù)。

4.2。方法比較

我們將我們的方法與兩組聚類方法進(jìn)行比較。一種是常規(guī)方法,包括K均值[12],帶噪聲的基于密度的應(yīng)用程序空間聚類(DBSCAN)[3],分層聚類聚類(HAC)[19],近似等級(jí)順序(ARO)[14]。另一種是基于學(xué)習(xí)的方法,包括CDP [28],學(xué)習(xí)聚類(LearnClust)[27]和鏈接GCN [23]。

實(shí)驗(yàn)結(jié)果列于表1至3。這些結(jié)果表明,我們的方法在所有數(shù)據(jù)集上均優(yōu)于其他方法。具體來說,在MS-Celeb-1M數(shù)據(jù)集中,我們的方法比最先進(jìn)的方法LearnClust [27]高出5%,并且顯著優(yōu)于傳統(tǒng)方法。在YouTube Faces DB和IJB-B-1845中,我們的方法分別比最新技術(shù)高出0.64%和1.4%。我們的方法生成了上下文感知功能,使其與其他聚類方法(例如K-Means和LearnClust)兼容。

效率和復(fù)雜性比較。在我們的工作中,計(jì)算復(fù)雜性來自三個(gè)部分:密度感知圖的構(gòu)建,網(wǎng)絡(luò)推理和聚類生成。圖的構(gòu)造是最耗時(shí)的部分,其時(shí)間復(fù)雜度為O(n2)。使用近似最近鄰搜索[25],搜索復(fù)雜度降低為O(n log n)。然后,僅基于本地鄰居構(gòu)造圖,因此圖的數(shù)量與數(shù)據(jù)的數(shù)量成線性增長,因此網(wǎng)絡(luò)推斷成本為O(n)。此外,集群生成模塊的復(fù)雜度為O(n),如第3.5節(jié)所述。因此,總體復(fù)雜度為O(n log n),這意味著它是有效且可擴(kuò)展的。

從表1可以明顯看出,與其他基于網(wǎng)絡(luò)的方法相比,我們的方法要快得多,甚至可以與最快的傳統(tǒng)方法相提并論。具體地說,與基于GCN的相關(guān)方法LearnClust [27]相比,我們的方法僅花費(fèi)15%的時(shí)間,因?yàn)長earnClust中的圖形是基于集群提案生成的節(jié)點(diǎn)集而建立的,這可能涉及GCN的更多節(jié)點(diǎn)而不是使用我們的密度感知圖構(gòu)造所涉及的節(jié)點(diǎn)。

5.結(jié)論

本文提出了一種密度感知特征嵌入框架。它使用GCN獲得本地上下文,并使用密度感知的遠(yuǎn)程鏈來有效捕獲群集級(jí)別的信息。 LSTM網(wǎng)絡(luò)與密度感知鏈一起應(yīng)用,以將不同的本地信息聚合為每個(gè)節(jié)點(diǎn)嵌入的統(tǒng)一特征。在改進(jìn)的功能上執(zhí)行了有效的聚類算法。在三個(gè)基準(zhǔn)數(shù)據(jù)集和不同聚類方法上的大量實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出的DA-Net的有效性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容