2022-03-24

A Survey of Image Clustering: Taxonomy and Recent Methods

摘要——圖像聚類是計算機視覺領(lǐng)域的一個基本問題。在本次調(diào)查中,我們提供了圖像聚類的全面概述。具體來說,我們首先討論圖像聚類在各個領(lǐng)域的應用。然后,我們總結(jié)了常見的算法,并提出了圖像聚類的分類?,F(xiàn)有方法從四個方面進行分類:基于自動編碼器的方法、子空間聚類、基于圖卷積網(wǎng)絡(luò)(GCN)的方法和其他一些聚類方法。介紹了各種圖像聚類方法的主要研究內(nèi)容和存在的問題。我們還介紹了一些最近的方法并總結(jié)了實驗結(jié)果。根據(jù)我們的分類和分析,創(chuàng)建和驗證新方法更加簡單。最后,我們提出了這個快速發(fā)展領(lǐng)域的未來機遇。

索引詞——圖像聚類、自動編碼器、子空間聚類、圖卷積網(wǎng)絡(luò)、對比學習、

一、引言

隨著信息技術(shù)的最新進展,幾乎在每個可以想象的區(qū)域都捕獲了大量圖像,其中大部分沒有標記[1]。手動標記這些圖像非常昂貴且耗時。為了充分利用這些未標記的圖像并研究它們之間的相關(guān)性,無監(jiān)督聚類成為近年來的熱門話題[2]。

由于圖像形狀和高維的變化,圖像聚類是計算機視覺中具有挑戰(zhàn)性的任務(wù)之一。圖像聚類的目標是自動將相似的圖像分組到一個簇中,而將不相似的圖像分配到不同的簇中。傳統(tǒng)的圖像聚類方法,如 K-means++ [25]、譜聚類 [13]、高斯混合模型 [14] 和子空間聚類,通常將特征提取與聚類分開。這些方法通常是手動提取圖像特征,然后使用聚類算法對特征進行聚類,從而實現(xiàn)圖像聚類。傳統(tǒng)的圖像聚類方法可能會因兩個主要問題而失敗。一方面,人工特征的容量有限,不能動態(tài)調(diào)整人工特征來捕捉圖像分布的先驗信息,尤其是在處理大規(guī)模真實世界圖像時。另一方面,特征提取和聚類的分離將使解決方案次優(yōu)。

神經(jīng)網(wǎng)絡(luò)的成功推動了模式識別和計算機視覺領(lǐng)域的研究。人們越來越關(guān)注將深度學習擴展到無監(jiān)督圖像聚類任務(wù)。最近,人們發(fā)現(xiàn)使用深度神經(jīng)網(wǎng)絡(luò)學習有效的表示在圖像聚類任務(wù)中起著重要作用,并且出現(xiàn)了許多研究,[4],[6]。

在本次調(diào)查中,我們對圖像聚類進行了全面調(diào)查,包括傳統(tǒng)聚類方法和深度聚類方法。本文的主要貢獻可歸納如下:

I) 我們概述了用于圖像聚類的現(xiàn)代機器學習技術(shù)。對于每種類型的圖像聚類研究,我們都提供了代表性模型的詳細描述,并進行了必要的比較。

II)我們收集了豐富的圖像聚類資源,包括最先進的模型、基準數(shù)據(jù)集、常見的估計指標和可視化方法。該調(diào)查可用作理解圖像聚類的實用指南。

在本文中,第 2 節(jié)重點介紹圖像聚類中的分類和通用框架,而第 3 節(jié)討論圖像聚類中存在的一些問題。在第 4 節(jié)中,我們介紹了一些與實驗相關(guān)的內(nèi)容,包括常用數(shù)據(jù)庫、估計指標和可視化方法。在最后一節(jié)中,我們對這項調(diào)查進行了簡要總結(jié),并對深度聚類進行了一些討論。

二、分類和框架

在本節(jié)中,我們概述了圖像聚類的分類并列出了常用方法。請注意,現(xiàn)有圖像聚類算法的分類模式不是絕對的,它們之間存在重疊。

A. 基于自動編碼器的方法

自動編碼器(AE)是一種用于半監(jiān)督學習和無監(jiān)督學習的人工神經(jīng)網(wǎng)絡(luò),其功能是將輸入信息作為學習對象來表示輸入信息。通常,為了學習圖像的有效表示,一些研究首先使用 AE 來提取圖像特征。然后,他們使用一些聚類算法來設(shè)計損失函數(shù),并對編碼器進行微調(diào)。

郭等人。使用自動編碼器來推斷圖像的維度,并使用最大化圖像和特征之間的互信息作為學習圖像表示的標準。該方法有效地將數(shù)據(jù)映射到有區(qū)別的嵌入子空間,并通過使用相對熵最小化原理精確預測聚類分配。徐等人。提出了一個用于判別嵌入和譜聚類的聯(lián)合學習框架。郭等人。提出了一種改進的深度嵌入式聚類(IDEC)算法來處理數(shù)據(jù)結(jié)構(gòu)的保存。與 DEC 相比,IDEC 可以通過整合聚類損失和 AEs 重建損失來優(yōu)化聚類標簽分配特征。陳等人。 [11]結(jié)合了三個基于AE的模型,包括卷積自動編碼器(CAE)、對抗性自動編碼器(AAE)和可堆疊自動編碼器(SAE),形成用于圖像聚類的混合自動編碼器(BAE)模型。馬拉巴等人。提出了一種深度聚類模型,解決了聚類重建的權(quán)衡問題。該方法可以逐步平滑地消除重構(gòu)目標函數(shù),有利于目標函數(shù)的構(gòu)建,有利于得到聚類結(jié)果。阿加拉普等人。 [17] 提出了一種優(yōu)化自編碼器學習表示的糾纏以處理圖像聚類問題的方法。麥康維爾等人。 [3] 將圖像聚類作為潛在的流形搜索問題,研究了一些關(guān)于自動編碼嵌入的全局流形學習方法。

自動編碼器之所以在圖像聚類中出名,是因為它可以保留圖像的局部像素信息。這是人們在無人監(jiān)督的情況下可以獲得的少數(shù)先驗信息之一。自編碼器的一種特殊形式是使用兩個變量的均方誤差 (MSE):

其中 xi 是輸入圖像,f(xi) 是 AE 解碼器的輸出。

然而,這些關(guān)注像素空間特征的圖像聚類算法存在兩個問題:1)像素級損失的使用可能導致這些方法過于關(guān)注基于像素的細節(jié)而不是抽象的語義信息。 2)像素分析難以有效建立對象的空間關(guān)聯(lián)和復雜結(jié)構(gòu)。

B. 子空間聚類

子空間聚類(SC)算法旨在找到可以識別聚類的所有子空間。這些算法專門用于查找所有子空間中的所有集群。 SC是數(shù)據(jù)挖掘領(lǐng)域聚類分析的關(guān)鍵技術(shù)之一。目前用于圖像聚類的子空間聚類方法主要有統(tǒng)計方法和低秩分解方法。還有許多基于深度學習的子空間聚類算法用于圖像聚類。

例如,Ji 等人。在自動編碼器的編碼器和解碼器之間提出了一個新穎的自我表達層來模擬傳統(tǒng)子空間聚類的“自學習”過程,并將其用于圖像聚類。席等人。將圖像聚類重新定義為驗證問題,并提出了著名的深度稀疏子空間聚類(DSSC)模型進行圖像聚類。該方法可以有效解決原始數(shù)據(jù)不滿足線性子空間分布假設(shè)的問題。 Elhamifar 等人提出了一種稀疏子空間聚類算法。他們將圖像聚類視為稀疏子空間學習程序,并提出凸松弛來解決稀疏優(yōu)化問題。阿巴維薩尼等人。提出了一種基于 CNN 的子空間聚類方法,并用它來解決圖像聚類問題。為了打破淺層模型的有限代表能力,Xi 等人。通過將子空間與結(jié)構(gòu)化自動編碼器(StructAE)相結(jié)合,提出了一種新穎的圖像聚類方法。

一般來說,子空間聚類的適用性是有限的,因為圖像的原始形式不一定位于線性子空間中。為了克服這個問題,Lim 等人。 [19]通過聯(lián)合學習數(shù)據(jù)的自我表達表示和親和矩陣提出了一種子空間聚類方法。

此外,在處理高維數(shù)據(jù)時,子空間聚類會遇到存儲開銷大、計算量大的問題。為了減少 SC 在處理圖像聚類中的耗時問題,Li 等人。 [8]提出了一種低秩表示的子空間聚類方法,通過低秩數(shù)據(jù)的線性表示矩陣保留了原始數(shù)據(jù)的全局結(jié)構(gòu),實現(xiàn)了最優(yōu)聚類。為了改進低秩表示方法,Chen等人[4]提出了一種基于低秩表示和自編碼器的圖像表示方法。另一個問題是嚴格的成對約束問題,即子空間聚類對異常值和初始參數(shù)很敏感。為了解決這個問題,Huang 等人。 [9] 提出了一種用于 k 子空間聚類的深度加權(quán) k 子空間聚類(DWSC)。

C. 基于 GCN 的方法

基于 GCN 的聚類方法通常將圖像聚類表述為鏈接預測問題,即如果將兩幅圖像分配到同一個聚類中,則它們之間存在鏈接。貝內(nèi)德克等人。提出使用自聚類(GEMSEC)算法的圖嵌入,該算法在計算節(jié)點特征的同時學習節(jié)點的聚類。于等人。 [10]提出了一種基于圖表示學習的深度聚類算法。該算法首先通過堆疊自動編碼器學習原始圖的非線性嵌入。然后,它在嵌入上運行 it-means 算法以獲得聚類結(jié)果。蔡等人。提出圖卷積子空間聚類(GCSC)算法,并將其用于高光譜圖像(HSI)聚類任務(wù)。該算法利用 GNN 將子空間聚類的自表達性特性重鑄為非歐幾里得域,并學習更魯棒的圖嵌入字典以提高聚類性能?;舻热恕?[12]提出了一種基于交叉注意力的深度聚類框架,并將其應用于圖像聚類,取得了良好的聚類效果。該框架包含四個主要模塊:交叉注意力融合模塊、內(nèi)容自動編碼器模塊(CAE)、圖卷積自動編碼器模塊(GAE)和自監(jiān)督模塊。這些模塊可以提取圖像之間的判別信息和關(guān)系,從而獲得更好的聚類結(jié)果。王等人。使用CNN提取特征并構(gòu)造子圖,然后使用圖卷積網(wǎng)絡(luò)(GCN)推斷子圖中的對之間連接的可能性。

D. 其他一些聚類方案

在[1]中,作者提出了一種基于高斯混合模型(GMM)的深度聚類算法,它結(jié)合了堆疊自編碼器和GMM兩種模型。對比學習是一類很有前途的方法,它通過學習編碼使兩個事物相似或不同的原因來構(gòu)建表示。李等人。 [18] 提出了一種單階段在線對比聚類(CC),它明確地執(zhí)行實例和集群級對比學習。文森佐等人。 [7] 提出了變分 infoMax Autoencoder,并用它來訓練深度神經(jīng)網(wǎng)絡(luò)以學習適合聚類的圖像表示。辛格等人。提出FineGAN,一種訓練生成模型的方法,將背景、形狀和外觀分離,并分層生成用于圖像聚類的細粒度對象類別[16]。范甘斯貝克等人。提出了一個兩步算法,其中特征學習和聚類是分離的。該算法首先使用自我監(jiān)督的方法進行圖像表示學習,以獲得語義上有意義的特征。然后,它以可學習的方法使用這些特征作為先驗來實現(xiàn)圖像聚類。陳等人。提出了一種新的深度流形聚類(DMC)算法。作者認為聚類表示位于多個流形上。 CNN 用于發(fā)現(xiàn)多個流形并學習參數(shù)以對未標記的圖像進行分類。

三、存在的問題

在本節(jié)中,我們分析了深度聚類中存在的一些問題,并提供了未來可能的研究方向。

A. 退化解問題

圖像聚類的退化解問題是將樣本聚合成一個或幾個類別。為了克服這個問題,一些研究提出了平衡分布損失。此損失的目標用于強制實現(xiàn)平衡的集群分配。例如,Dizaji 等人。制定平衡分配損失如下:

Lbalance = DKL(G||U) (2)

其中 U 是均勻分布,G 是分配一個點到每個簇的概率分布:gk=P(y=k)=1??qik

通過將此損失與其他損失相結(jié)合,將每個數(shù)據(jù)點分配給某個集群的概率在所有可能的集群中是一致的。應該注意的是,這個屬性(統(tǒng)一分配)并不總是理想的。因此,如果已知任何先驗知識,則可以用已知的先驗知識代替均勻分布。

B. 未知簇數(shù)問題

現(xiàn)有的大多數(shù)聚類方法都需要設(shè)置圖像聚類的數(shù)量。然而,在許多實際問題的情況下,簇的數(shù)量是未知的。如何解決未知簇數(shù)的問題是一個具有挑戰(zhàn)性的問題。最近的一些研究可能會給我們一些啟發(fā)。在 [22] 中,Shah 等人。提出了一個三元組網(wǎng)絡(luò)來有區(qū)別地訓練一個網(wǎng)絡(luò)來學習圖像的嵌入,并將圖像聚集在一組未知的類上。任等人。 [21]使用密度聚類方法和CNN實現(xiàn)未知簇數(shù)的圖像聚類。他們首先使用卷積自編碼器來降低圖像的維度,并使用 t-SNE 進一步將圖像特征降低到 2D 空間。然后,作者應用基于密度的方法自動獲得合適數(shù)量的聚類。

層次聚類構(gòu)建了一個聚類樹,也稱為樹狀圖。這種聚類方法不需要事先知道聚類的數(shù)量。最近,楊等人。提出深度表示和圖像集群(JULE)框架的聯(lián)合無監(jiān)督學習。在這項工作中,圖像聚類是在前向傳播中使用層次聚類方法進行的,而表示學習是在后向傳播中進行的。然而,如何定義層次聚類的有效鏈接度量始終是一個懸而未決的問題[24]。

四。數(shù)據(jù)集、指標和最佳方法

在本節(jié)中,我們首先介紹一些用于圖像聚類的數(shù)據(jù)庫和評估指標。然后,我們介紹了一些觀察聚類結(jié)果的可視化方法。

A. 數(shù)據(jù)集

圖像聚類中常用的數(shù)據(jù)集包括 USPS、STL-10、CIFAR-10、CIFAR-100、Coil-20、Coil-40、Coil-100、MNIST、Fashion-MNIST、Extened Yale-B、YouTube Faces、UMist、 CMU-PIE、CUB Birds、Stanford Cars、Stanford Dogs、FRGC、Letter AJ、HAR、EMNIST-Balanced、Imagenet-10、Imagenet-Dog 和 Tiny-ImageNet。我們簡要介紹這些數(shù)據(jù)集如下。

MNIST 的訓練集由來自不同人的 250 個手寫數(shù)字組成。手寫數(shù)字數(shù)據(jù)集中的每張圖像都是 28 × 28 灰度圖像,樣本中的類別總數(shù)為 10。EMNIST-Balanced 的數(shù)據(jù)量是 MNIST 的 4 倍。字母 A-J 基于 20 種不同的字體,這些字體中的每個字母都是隨機扭曲的。 USPS 是由 9,298 個 16 × 16 像素灰度樣本組成的數(shù)據(jù)集。

UMist、FRGC、CMU-PIE、YouTube-Faces 和 Extened Yale-B 是人臉圖像數(shù)據(jù)集。 UMist 由 20 個人的 564 張圖像組成。 FRGC 由 20 個人的 50,000 張圖像組成。 CMU-PIE 是一個數(shù)據(jù)集,包括 68 個人的 272 張人臉圖像,有 4 種不同的表情。 YouTube-Faces 包含 1, 595 個不同人的 3, 425 個視頻。擴展的 Yale-B 包含 2、414 張在不同照明條件和各種面部表情下拍攝的正面圖像。

CUB Birds、Stanford Cars 和 Stanford Dogs 是三個常見的目標數(shù)據(jù)集。 CUB Birds 是視覺分類任務(wù)中使用最廣泛的數(shù)據(jù)集。它包含屬于鳥類的 200 個子類別的 11,788 個圖像樣本。斯坦福汽車由 196 類汽車組成,共有 16、185 張圖像。 Stanford Dogs 由 120 類汽車組成,共有 20、580 張圖像。

Coil-20、Coil-40 和 Coil-100 均由兩個版本組成。這些數(shù)據(jù)集中的每個示例都是 128 × 128 灰度圖像。

CIFAR-10 和 CIFAR-100 均由 50,000 個訓練樣本和 10,000 個測試樣本組成。每個樣本的大小為 32 × 32。CIFAR-10 總共涉及 10 個類,CIFAR-100 總共涉及 100 個類,分為 20 個超類。 STL-10 和 Imagenet-10 是用于開發(fā)無監(jiān)督特征學習、深度學習和自監(jiān)督學習算法的圖像數(shù)據(jù)集。它們受到 CIFAR-10 數(shù)據(jù)集的啟發(fā),但經(jīng)過一些修改,尤其是高分辨率數(shù)據(jù)集 (96×96),將使其成為開發(fā)更具可擴展性的無監(jiān)督學習方法的具有挑戰(zhàn)性的基準。

HAR 和 Fshion-MNIST 是兩個特殊的數(shù)據(jù)集。 HAR 是一個人類活動識別數(shù)據(jù)集,由 30 個受試者執(zhí)行 6 種不同的活動組成。 Fashion-MNIST 是 MNIST 的改進版本。它包含了10種生活中常見的物品,包括衣服、鞋子和包包。

這些數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)如表一所示。

C. 最近的方法和聚類結(jié)果

我們在表 II-VIII 中總結(jié)了 2016 年至 2021 年最近的一些聚類算法。表 II 和表 III 報告了 STL-10、CIFAR-10、CIFAR-100、ImageNet-Dog、ImageNet-10 和 Tiny-ImageNet 數(shù)據(jù)集的一些最新方法。這些數(shù)據(jù)庫中的圖像都是復雜的真實對象,這給無監(jiān)督圖像聚類帶來了困難。表 IV 和表 V 報告了人臉數(shù)據(jù)庫(包括 YTF、FRGC 和 YTF)、CMU-PIE、CUB Birds、Stanford Cars 和 Stanford Dogs 的一些最新方法。這些方法具有優(yōu)越的可擴展性,可用于對簡單和復雜圖像進行聚類。表 VI 和表 VII 報告了一些手寫數(shù)字數(shù)據(jù)集和一些對象圖像數(shù)據(jù)集的最新方法。這些數(shù)據(jù)庫都比較簡單,聚類結(jié)果沒有太大的提升空間。特別是,表 VIII 報告了 Letter A-J、HAR、EMNIST-Balanced 數(shù)據(jù)集上的圖像聚類方法,每個數(shù)據(jù)庫只有一種算法。這意味著這三個數(shù)據(jù)庫可能具有廣泛的研究空間。

五、結(jié)論

圖像聚類是基于相似性度量對圖像進行分組的過程。在本文中,我們對圖像聚類進行了全面的概述。本文研究的主要問題包括三個部分:我們首先介紹了現(xiàn)有圖像聚類方法的分類和框架。然后,對存在的問題進行分析,提出解決這些問題的建議。最后,我們介紹了一些圖像數(shù)據(jù)集和聚類結(jié)果的評價指標。為了讓讀者了解現(xiàn)階段圖像聚類的發(fā)展水平,我們整理了這些數(shù)據(jù)庫上性能最好的方法。該調(diào)查可以作為了解圖像聚類當前發(fā)展的指南。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容