多視圖聚類綜述

@information 姓名:李靖,學(xué)號(hào):22011211070,智慧宇宙投稿



轉(zhuǎn)載自CSDN?https://blog.csdn.net/weixin_47038252/article/details/121480362

多視圖聚類方法分類:

區(qū)分方法(基于相似性)的方法:

MVC的目的是將N個(gè)主體分成K個(gè)類別,最終我們會(huì)得到一個(gè)成員矩陣H∈(N×K),它會(huì)指示哪一個(gè)主題是在同一個(gè)簇而其他主體是在其他簇。H的每一行的元素之和應(yīng)該是1,這樣可以確保每一行的等可能性。

A.公共向量矩陣(多視圖譜聚類)

? ? ? 譜聚類的關(guān)鍵在于圖的拉普拉斯構(gòu)造,得到的特征向量反映了數(shù)據(jù)的分組結(jié)構(gòu),這組MVC方法通過(guò)假設(shè)所有視圖共享相同或相似的特征向量矩陣來(lái)保證得到共同的聚類結(jié)果。有兩種代表性的方法:聯(lián)合訓(xùn)練譜聚類(co-training approach for multi-view spectral clustering)和聯(lián)合正則化譜聚類(“Co-regularized multi-view spectral clustering)。

1)譜聚類:利用圖的拉普拉斯性質(zhì),其中圖的邊表示數(shù)據(jù)點(diǎn)之間的相似性,并解決圖上歸一化最小割的松弛問(wèn)題。與其他廣泛使用的方法(如僅適用于球形聚類的kmeans)相比,譜聚類可以應(yīng)用于任意形狀的聚類,并表現(xiàn)出良好的性能。目標(biāo)函數(shù)如下:

矩陣U的行是數(shù)據(jù)點(diǎn)的嵌入,可以被用來(lái)當(dāng)作kmeans的輸入。

關(guān)于譜聚類的具體操作可以去搜其他博客,這里只做簡(jiǎn)要介紹。

2)協(xié)同訓(xùn)練多視圖譜聚類:對(duì)于半監(jiān)督學(xué)習(xí),當(dāng)標(biāo)記和未標(biāo)記的數(shù)據(jù)都可用時(shí),兩個(gè)視圖的聯(lián)合訓(xùn)練是一種廣泛認(rèn)可的想法。它假設(shè)在兩個(gè)視圖中構(gòu)建的預(yù)測(cè)模型將很可能導(dǎo)致同一樣本的相同標(biāo)簽。有兩個(gè)主要假設(shè)可以保證共同訓(xùn)練的成功:(1)充分性:每個(gè)視圖本身足以進(jìn)行樣本分類,(2)條件獨(dú)立性:給定類標(biāo)簽,視圖是條件獨(dú)立的。在原始聯(lián)合訓(xùn)練算法(Combining labeled and unlabeled data with co-training)中,使用標(biāo)記數(shù)據(jù)在每個(gè)視圖中訓(xùn)練兩個(gè)初始預(yù)測(cè)函數(shù)F1和F2,然后重復(fù)執(zhí)行以下步驟:將F1預(yù)測(cè)的最有把握的示例添加到標(biāo)記集TrainF2,反之亦然,然后在放大的標(biāo)記數(shù)據(jù)集上重新訓(xùn)練F1和F2。可以看出,經(jīng)過(guò)多次迭代后,F(xiàn)1和F2將在標(biāo)簽上彼此一致。

3)共正則化多視角譜聚類:共正則化是半監(jiān)督多視圖學(xué)習(xí)中的一種有效技術(shù)。協(xié)同正則化的核心思想是最小化作為目標(biāo)函數(shù)一部分的兩個(gè)視圖的預(yù)測(cè)函數(shù)之間的差異。然而,在無(wú)監(jiān)督學(xué)習(xí)類聚類中不存在預(yù)測(cè)函數(shù),那么如何在聚類問(wèn)題中實(shí)現(xiàn)協(xié)同正則化思想呢?聯(lián)合正則化多視圖譜聚類(Co-regularized multi-view spectral clustering)采用了圖拉普拉斯算子的特征向量,在半監(jiān)督模式下扮演類似于預(yù)測(cè)函數(shù)的角色。

? ? 第一種共正則化方法:

這個(gè)方法在不完整多視圖聚類中有用到,這篇論文:《 Incomplete Multiview Spectral Clustering With Adaptive Graph Learning》

? ? ? ? 第二種稱為基于質(zhì)心的聯(lián)合正則化,通過(guò)將每個(gè)視圖的特征向量矩陣正則化為一個(gè)共同一致的特征向量矩陣,從而使每個(gè)視圖的特征向量相似。提出了相應(yīng)的優(yōu)化問(wèn)題:

與兩兩正則化算法相比,基于質(zhì)心的多視圖聚類算法不需要將得到的所有視圖的特征向量矩陣進(jìn)行組合,就可以運(yùn)行kmeans算法,然而,基于質(zhì)心的方法有一個(gè)潛在的缺點(diǎn):噪聲視圖可能會(huì)影響最佳特征向量,因?yàn)樗Q于所有視圖。

Cai等人(Heterogeneous image feature integration via multi-modal spectral clustering)在視圖中使用公共指示矩陣來(lái)執(zhí)行多視圖譜聚類,并推導(dǎo)出類似于基于質(zhì)心的共正則化方法的公式。在每一個(gè)視圖的特征向量矩陣和公共特征向量矩陣之間的不一致性判別為:

優(yōu)化問(wèn)題定義如下:

與一般的譜聚類不同,一般譜聚類先得到特征向量矩陣,然后再運(yùn)行聚類(如對(duì)初始化條件敏感的k均值)來(lái)分配聚類,cai等人直接求解最終的聚類指示矩陣,因此對(duì)初始條件更具有魯棒性。

4)其他: 除了上述兩種具有代表性的多視圖譜聚類方法外,wang等人(Multi-objective multi-view spectral clustering via pareto optimization)在視圖間強(qiáng)制執(zhí)行一個(gè)公共特征向量矩陣,并制定一個(gè)multi-objective問(wèn)題,然后使用Pareto優(yōu)化。

B.公共系數(shù)矩陣(主要是多視圖子空間聚類)

在許多實(shí)際應(yīng)用中,即使給定的數(shù)據(jù)是高維的,問(wèn)題的內(nèi)在維數(shù)往往很低。例如,給定圖像中的像素?cái)?shù)可能很大,但僅使用少數(shù)參數(shù)來(lái)描述場(chǎng)景的外觀、幾何體和動(dòng)力學(xué)。這推動(dòng)了尋找底層低維子空間的發(fā)展。實(shí)際上,數(shù)據(jù)可以從多個(gè)子空間中采樣。子空間聚類(A tutorial on subspace clustering)是找到底層子空間,然后根據(jù)已識(shí)別的子空間正確聚類數(shù)據(jù)點(diǎn)的技術(shù)。

1)子空間聚類:子空間聚類使用數(shù)據(jù)樣本的自表達(dá)特性[Sparse subspace clustering: Algorithm, theory, and applications,],即,每個(gè)樣本都可以由少數(shù)其他數(shù)據(jù)樣本的線性組合表示。經(jīng)典的子空間聚類公式如下所示:

? ? ? Z即是子空間系數(shù)矩陣(表示矩陣),可以寫作以下優(yōu)化問(wèn)題:

在得到子空間表示Z后,可以構(gòu)造出相似矩陣W,然后進(jìn)一步構(gòu)造出拉普拉斯矩陣,接著執(zhí)行譜聚類得到最終的聚類結(jié)果。

2)多視圖子空間聚類: 當(dāng)有多視圖信息的時(shí)候,每個(gè)視圖的子空間表示Z(v)可以從每個(gè)視圖中獲得,Yin等人(Multi-view clustering via pairwise sparse subspace representation)通過(guò)強(qiáng)制每對(duì)視圖的系數(shù)矩陣盡可能相似來(lái)共享公共系數(shù)矩陣,優(yōu)化問(wèn)題如下:

其中是基于成對(duì)共正則化約束的l1范數(shù),能夠減輕噪聲影響。

C.公共指示矩陣(主要是多視圖非負(fù)矩陣分解)

1)非負(fù)矩陣分解(NMF):目的是找到兩個(gè)非負(fù)的矩陣U和V,它們的積能很好地近似于X,由于非負(fù)約束,NMF的一個(gè)特性是可以學(xué)習(xí)part-based的表示。

2)基于NMF的多視圖聚類:為了在NMF框架中組合多視圖信息,Akata等人(Non-negative matrix factorization in multimodality data for segmentation and label prediction)在不同視圖之間的NMF中強(qiáng)制執(zhí)行一個(gè)公共指示矩陣,以執(zhí)行多視圖聚類。然而,指示矩陣V(v)在相同規(guī)模上可能沒(méi)有可比性。為了使不同視圖中的聚類解決方案保持有意義和可比性,Liu等人(Multi-view clustering via joint nonnegative matrix factorization)實(shí)施了一個(gè)約束,將每個(gè)視圖相關(guān)的指示矩陣推向一個(gè)共同的指示矩陣,這導(dǎo)致了另一個(gè)受NMF和概率潛在語(yǔ)義分析之間聯(lián)系啟發(fā)的規(guī)范化約束,最終優(yōu)化問(wèn)題的公式為:

即是保證比較的合理性約束,在獲得了共識(shí)矩陣V*之后,每一個(gè)數(shù)據(jù)點(diǎn)的簇標(biāo)簽都可以通過(guò)計(jì)算出來(lái)。

3)多視圖k-means:通過(guò)引入指示矩陣H,可以使用NMF來(lái)制定k-均值聚類方法。k-means聚類的NMF公式是:

其中G∈R(d×K)的列給出簇的質(zhì)心。為了處理大規(guī)模多視圖數(shù)據(jù),Cai等人(Multi-view k-means clustering on big data)提出了一種多視圖kmeans聚類方法,通過(guò)在不同視圖之間采用公共指示矩陣,優(yōu)化問(wèn)題如下:

通過(guò)學(xué)習(xí)不同視圖的權(quán)重α,在多視圖聚類過(guò)程中,重要視圖將獲得較大的權(quán)重

4)其他 :如前所述,在子空間聚類中通常有兩個(gè)步驟:找到子空間表示,然后在根據(jù)子空間表示計(jì)算出的圖Laplacian上運(yùn)行譜聚類。為了從不同的視圖中識(shí)別一致的聚類,Gao等人[Multi-view subspace clustering]將這兩個(gè)步驟合并到子空間聚類中,并在不同的視圖中實(shí)施了一個(gè)通用的指標(biāo)矩陣。公式如下所示:

H是公共指示矩陣,該矩陣指示所有視圖的唯一群集分配。盡管這種多視圖子空間聚類方法基于子空間聚類,但它不強(qiáng)制使用公共系數(shù)矩陣Z,而是為不同的視圖使用公共指示矩陣。因此,我們將其歸類為這一類。

Wang等人[Multi-view clustering and feature learning via structured sparsity]通過(guò)一個(gè)公共指標(biāo)矩陣集成多視圖信息,并通過(guò)以下公式為不同的數(shù)據(jù)集群同時(shí)選擇特征:

在[Double constrained nmf for partial multi-view clustering]中,采用了矩陣分解方法來(lái)協(xié)調(diào)各個(gè)視圖產(chǎn)生的聚類。具體地說(shuō),創(chuàng)建一個(gè)包含每個(gè)單獨(dú)視圖的分區(qū)指示的矩陣,然后將其分解為兩個(gè)矩陣:一個(gè)顯示單個(gè)groupings對(duì)最終多視圖集群的貢獻(xiàn),稱為元集群,另一個(gè)顯示實(shí)例對(duì)元集群的分配。Tang等人[Clustering with multiple graphs]將多視圖聚類視為具有多個(gè)圖的聚類,每個(gè)圖通過(guò)兩個(gè)因子的矩陣分解進(jìn)行近似:一個(gè)特定于圖的因子和一個(gè)所有圖共有的因子。Qian等人[Double constrained nmf for partial multi-view clustering]要求每個(gè)視圖的指示矩陣盡可能接近公共指示矩陣,并采用拉普拉斯正則化來(lái)同時(shí)保持視圖的潛在幾何結(jié)構(gòu)。

除了使用通用指示矩陣外,[Multiple incomplete views clustering via weighted nonnegative matrix factorization with l21 regularization]、[Weighted multi-view clustering with feature selection]、[Online multi-view clustering with incomplete views]還引入了一個(gè)權(quán)重矩陣來(lái)指示是否存在缺失條目,以便它能夠解決缺失值問(wèn)題。多視圖自定步長(zhǎng)聚類方法[Multi-view self-paced learning for clustering]考慮了樣本和視圖的復(fù)雜性,以緩解局部極小值問(wèn)題。Tao等人[From ensemble clustering to multi-view clustering]實(shí)施了一個(gè)公共指標(biāo)矩陣,并以集成的方式在所有視圖中尋求共識(shí)聚類。另一種利用公共指標(biāo)矩陣組合多個(gè)視圖的方法[Discriminatively embedded k-means for multi-view clustering]采用了線性判別分析思想,并自動(dòng)對(duì)不同視圖進(jìn)行加權(quán)。對(duì)于基于圖形的聚類方法,首先獲得每個(gè)視圖的相似性矩陣,Nie等人[Self-weighted multiview clustering with multiple graphs]假設(shè)一個(gè)公共指標(biāo)矩陣,然后通過(guò)最小化公共指標(biāo)矩陣和每個(gè)相似性矩陣之間的差異來(lái)解決問(wèn)題。

D.直接組合(主要是基于多內(nèi)核的多視圖聚類):除了在不同視圖之間共享某些結(jié)構(gòu)的方法外,通過(guò)內(nèi)核進(jìn)行直接視圖組合是執(zhí)行多視圖聚類的另一種常見方法。一種自然的方法是為每個(gè)視圖定義一個(gè)內(nèi)核,然后將這些內(nèi)核組合成凸組合[Composite kernels for hypertext categorisation][Linear prediction models with graph regularization for web-page categorization][Multi-kernel maximum entropy discrimination for multi-view learning]

因?yàn)槲覍?duì)這塊不是很感興趣,所以只做列舉

1)核函數(shù)和核組合方法:

組合多個(gè)內(nèi)核的方法:

2)核kmeans和譜聚類:

3)基于多核的多視圖聚類

4)其他:除了基于多內(nèi)核的多視圖聚類外,還有一些其他方法使用特征的直接組合來(lái)執(zhí)行多視圖聚類,如[Discriminatively embedded k-means for multi-view clustering],[Fusion of similarity data in clustering]。在[Tw-k-means: Automated two-level variable weighting clustering algorithm for multiview data]中,為多視圖數(shù)據(jù)的聚類算法分配了兩級(jí)權(quán)重:視圖權(quán)重和變量權(quán)重,以確定相應(yīng)視圖和變量的重要性。為了將模糊聚類方法擴(kuò)展到多視圖聚類,在[Cofkm: a centralized method for multiple-view clustering]和[Optimized data fusion for kernel k-means clustering]中分別對(duì)每個(gè)視圖進(jìn)行加權(quán),并獲得模糊c-均值和模糊k-均值的多視圖版本。

E.投影后的組合(主要是基于CCA的多視圖聚類):

對(duì)于所有視圖都具有相同數(shù)據(jù)類型(如“分類”或“連續(xù)”)的多視圖數(shù)據(jù),直接將它們組合在一起是合理的。然而,在實(shí)際應(yīng)用中,多個(gè)表示可能具有不同的數(shù)據(jù)類型,很難直接比較它們。例如,在生物信息學(xué)中,基因信息可以是一個(gè)視圖,而臨床癥狀可以是患者聚類分析的另一個(gè)視圖[Multi-view sparse co-clustering via proximal alternating linearized minimization]。顯然,這些信息不能直接組合。此外,高維度和噪聲也很難處理。為了解決上述問(wèn)題,介紹了最后一種重要的組合方式:投影后組合。最常用的技術(shù)是典型相關(guān)分析(CCA)和核心版本的CCA(KCCA)。

1)CCA和KCCA

2)基于CCA的多視圖聚類

對(duì)于至少有一個(gè)完整視圖的多視圖數(shù)據(jù)(該視圖的特征可用于所有數(shù)據(jù)點(diǎn)),Anusua等人[Muliview clusterting with incomplete views]借用了拉普拉斯正則化的思想來(lái)完成不完整的核矩陣,然后應(yīng)用KCCA進(jìn)行多視圖聚類。在多視圖聚類的另一種方法中,多模式矩陣A(v)∈R(N×Kv),v=1,2,···,其中每一個(gè)K對(duì)應(yīng)于一個(gè)視圖,然后應(yīng)學(xué)習(xí)一致模式矩陣以盡可能逼近每個(gè)視圖的模式矩陣。然而,由于無(wú)監(jiān)督的特性,模式矩陣通常不能直接進(jìn)行比較。使用CCA公式(29),Long等人[A general model for multiple view unsupervised learning]首先投影一個(gè)視圖的模式矩陣,然后再與另一個(gè)視圖的模式矩陣進(jìn)行比較。

同樣的想法也可以用來(lái)解決不完整視圖問(wèn)題(即,沒(méi)有完整視圖)。例如,如果只有兩個(gè)視圖,[Partial multi-view clustering]、[Incomplete multi-view clustering via subspace learning]中的方法將數(shù)據(jù)分成兩個(gè)視圖的數(shù)據(jù)部分和只有一個(gè)視圖的數(shù)據(jù)部分,然后投影每個(gè)視圖的數(shù)據(jù)矩陣,使其接近最終指示矩陣。多視圖信息由公共指示矩陣連接,該矩陣對(duì)應(yīng)于兩個(gè)視圖的投影數(shù)據(jù)。Wang等人[Multi-view clustering with extreme learning machine]提供了一種使用極限學(xué)習(xí)機(jī)的多視圖聚類方法,該方法將歸一化特征空間映射到更高維的特征空間。

————————————————

版權(quán)聲明:本文為CSDN博主「打小就聰明w」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。

原文鏈接:https://blog.csdn.net/weixin_47038252/article/details/121480362

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容