国产熟妇另类一区二区,香蕉亚洲精品成人啪,九九九九精品在线

Li X, Yin H, Zhou K, et al. Semi-supervised clustering with deep metric learning and graph embedding[J]. World Wide Web, 2020, 23(2): 781-798.

摘要翻譯

聚類作為社交網(wǎng)絡(luò)中的一種常見技術(shù)，因其高性能而引起了廣泛的研究興趣，并提出了許多聚類方法。現(xiàn)有聚類方法是基于無(wú)監(jiān)督學(xué)習(xí)的。事實(shí)上，我們通?？梢栽趯?shí)際應(yīng)用中得到少數(shù)的標(biāo)記樣本。最近，人們提出了幾種半監(jiān)督聚類方法，盡管還有很多改進(jìn)的空間。本文的目標(biāo)是解決半監(jiān)督聚類過(guò)程中的兩個(gè)研究問(wèn)題：(i)如何學(xué)習(xí)更有鑒別性的特征以提升聚類過(guò)程的；(ii)如何有效地利用已標(biāo)記的數(shù)據(jù)和未標(biāo)記的數(shù)據(jù)來(lái)提高聚類的性能。為了解決這兩個(gè)問(wèn)題，論文提出了一種新的基于深度度量學(xué)習(xí)(SCDML)的半監(jiān)督聚類方法，它以一種新的方法有效地利用了深度度量學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。為了使提取的數(shù)據(jù)貢獻(xiàn)特征更具有代表性，標(biāo)簽傳播網(wǎng)絡(luò)更適合實(shí)際應(yīng)用，論文在深度度量學(xué)習(xí)網(wǎng)絡(luò)中采用 triplet loss，并將bedding？與標(biāo)簽傳播策略相結(jié)合，動(dòng)態(tài)地將未標(biāo)簽數(shù)據(jù)更新為已標(biāo)簽數(shù)據(jù)，進(jìn)一步改進(jìn)了聚類，稱為 semi-supervised clustering with deep metric learning and graph embedding (SCDMLGE)。SCDMLGE增強(qiáng)了度量學(xué)習(xí)網(wǎng)絡(luò)的魯棒性，提高了聚類的準(zhǔn)確性。在多個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)，說(shuō)明了模型的有效性。

聚類歸納

The unsupervised clustering technique has drawn a tremendous amount
of research attention, and many clustering methods have been proposed in the past.

這些聚類方法通常可以分為三種類型：

基于特征學(xué)習(xí)的方法。該方法試圖通過(guò)結(jié)合數(shù)據(jù)降維技術(shù)或子空間學(xué)習(xí)技術(shù)來(lái)尋找更具有區(qū)分性的特征。
基于度量學(xué)習(xí)的方法。此方法旨在學(xué)習(xí)訓(xùn)練數(shù)據(jù)的一個(gè)適當(dāng)?shù)木嚯x度量。在學(xué)習(xí)的距離度量下，它可以將相似的樣本組合在一起并同時(shí)將不相似的樣本分離。
基于圖的聚類。這種方法根據(jù)數(shù)據(jù)的成對(duì)相似性將數(shù)據(jù)劃分為不同的類簇。

semi-supervised clustering with deep metric learning框架

SCDML--可以利用深度度量學(xué)習(xí)模型提取可判別的特征，同時(shí)，通過(guò)KNN標(biāo)簽更新策略優(yōu)化聚類結(jié)果，動(dòng)態(tài)增加標(biāo)記數(shù)據(jù)集，然后進(jìn)一步提升度量學(xué)習(xí)網(wǎng)絡(luò)的性能。

圖（a）展示了現(xiàn)有的半監(jiān)督的固定輸入聚類模型訓(xùn)練網(wǎng)絡(luò)模型，而在論文的網(wǎng)絡(luò)模型中，該模型通過(guò)增量地不斷更新標(biāo)記數(shù)據(jù)，如圖（b）所示。

該框架貢獻(xiàn)點(diǎn)總結(jié)

設(shè)計(jì)了一種新的半監(jiān)督聚類模型，其中包括一個(gè)半監(jiān)督深度度量學(xué)習(xí)子網(wǎng)和一個(gè)標(biāo)簽傳播子網(wǎng)。

SCDML

在深度度量學(xué)習(xí)子網(wǎng)中，通過(guò)使用Siamese CNNs來(lái)抽取可判別的特征來(lái)最小化聚類誤差。
在標(biāo)簽傳播子網(wǎng)中，通過(guò)KNN標(biāo)記更新策略將無(wú)標(biāo)記數(shù)據(jù)轉(zhuǎn)換為有標(biāo)記數(shù)據(jù)。并以此增強(qiáng)深度度量學(xué)習(xí)子網(wǎng)的性能。

（1） semi-supervised deep metric learning network

step 1: 將已標(biāo)記的樣本對(duì)輸入到Siamese CNNs，來(lái)抽取可識(shí)別的特征。該網(wǎng)絡(luò)的損失函數(shù)為對(duì)比損失:

contrastive loss

step 2: 然后通過(guò)訓(xùn)練好的度量學(xué)習(xí)網(wǎng)絡(luò)對(duì)所有數(shù)據(jù)，包括標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)進(jìn)行編碼，以獲得其對(duì)應(yīng)特征。
step 3: 最后，根據(jù)編碼特征對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類，并將分類結(jié)果記錄為未標(biāo)記數(shù)據(jù)的標(biāo)簽。

（2） k-nearest neighbors label updating strategy

給定數(shù)據(jù)集，所有的數(shù)據(jù)屬于 $C$ 個(gè)類簇，每個(gè)類簇包含有限的標(biāo)記數(shù)據(jù)，大量的未標(biāo)記數(shù)據(jù)。為了充分利用未標(biāo)記數(shù)據(jù)的特性，我們每次將 $K*C$ 個(gè)新的未標(biāo)記數(shù)據(jù)添加到標(biāo)記數(shù)據(jù)集。KNN標(biāo)簽更新策略的主要流程如下。
step 1: 通過(guò)有標(biāo)簽的數(shù)據(jù)來(lái)計(jì)算每個(gè)類簇的中心：

step 2: 計(jì)算每個(gè)無(wú)標(biāo)簽數(shù)據(jù)到類簇中心的距離，并選擇top k樣本添加到有標(biāo)簽數(shù)據(jù)中：

在SCDML的(b)圖中的實(shí)點(diǎn)表示標(biāo)記數(shù)據(jù)，空心點(diǎn)表示未標(biāo)記數(shù)據(jù)。在找到每個(gè)類簇的標(biāo)記數(shù)據(jù)中心后，將距離該中心最近的未標(biāo)記樣本（top k）作為新的標(biāo)記數(shù)據(jù)。

隨著標(biāo)記數(shù)據(jù)數(shù)量的增加，度量模型可以學(xué)習(xí)更魯棒性和有鑒別性的特征，這將進(jìn)一步提高聚類的準(zhǔn)確性。

Improved semi-supervised clustering with deep metric learning

進(jìn)一步作者考慮到：(i)度量函數(shù)的選擇會(huì)影響數(shù)據(jù)特征提取的準(zhǔn)確性，進(jìn)而影響聚類結(jié)果的準(zhǔn)確性; (ii)在實(shí)際應(yīng)用中，由于每個(gè)簇的密度、被標(biāo)記數(shù)據(jù)的數(shù)量以及它們?cè)诿總€(gè)簇中的分布不同，KNN標(biāo)簽更新策略不是很適用。
由此進(jìn)行了兩個(gè)方面的改進(jìn)：(i)將triplet CNNs作為度量學(xué)習(xí)模型，并以triplet loss作為模型的損失來(lái)訓(xùn)練網(wǎng)絡(luò)。(ii)設(shè)計(jì)了一個(gè)更合理的標(biāo)簽傳播網(wǎng)絡(luò)，將未標(biāo)記數(shù)據(jù)動(dòng)態(tài)轉(zhuǎn)換為標(biāo)記數(shù)據(jù)。改進(jìn)后的總體框架如下圖所示：

SCDMLGE

（1） Semi-supervised deep metric learning and classification network

step 1: 用帶有標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò)。首先，通過(guò) triplet CNNs提取可識(shí)別特征，然后利用特征訓(xùn)練分類器。為了同時(shí)學(xué)習(xí)特征提取和訓(xùn)練分類網(wǎng)絡(luò)，改論文設(shè)計(jì)了半監(jiān)督深度度量學(xué)習(xí)和分類網(wǎng)絡(luò)的損失函數(shù)如下：

L Loss

其中，

||W||^2_F

是一個(gè)防止過(guò)度擬合的正則項(xiàng)。

L_M

和

L_C

分別是度量學(xué)習(xí)損失和分類損失。

triplet loss

上式為典型的triplet loss構(gòu)造，最小化Anchor和正例之間的距離，而最大化Anchor和負(fù)例之間的距離。

\alpha

是人為設(shè)置的二者之間的最小間隔。
用于分類的損失函數(shù)如下:

classification loss

step 2: 分別對(duì)標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)利用訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行編碼，得到對(duì)應(yīng)的特征輸出

S’_l

和

S’_u

。
step 3: 根據(jù)分類網(wǎng)絡(luò)標(biāo)記未標(biāo)記的數(shù)據(jù)。樣本

s_{ui}

對(duì)應(yīng)的分類標(biāo)簽記為：

l_{ui}^1

。

（2）Semi-supervised clustering labeling propagation network

通過(guò)深度度量學(xué)習(xí)和分類網(wǎng)絡(luò)，可以獲得未標(biāo)記數(shù)據(jù)的標(biāo)簽，稱為弱標(biāo)簽。為了獲得未標(biāo)記數(shù)據(jù)的強(qiáng)標(biāo)簽，論文設(shè)計(jì)了一個(gè)半監(jiān)督的標(biāo)簽傳播網(wǎng)絡(luò)。它包括半監(jiān)督聚類和標(biāo)記傳播兩部分。

在半監(jiān)督聚類的過(guò)程中，提出了一種改進(jìn)的圖聚類算法。

首先構(gòu)造一個(gè)相似度矩陣 $W$ 。

W

其中， $σ$ 表示樣本點(diǎn)的鄰域?qū)挾?，?img class="math-inline" src="https://math.jianshu.com/math?formula=%CF%83" alt="σ" mathimg="1">越大，樣本點(diǎn)之間的相似性就越大。
然后構(gòu)造度矩陣 $D$ 。

D

得到拉普拉斯矩陣 $L$ 。

L
接下來(lái)，對(duì)拉普拉斯矩陣進(jìn)行矩陣分解（附：矩陣分解的意義）使用 $L$ 的top k特征向量（列向量） $u_1,u_2, ...,u_k$ 形成一個(gè)新的矩陣 $U \in R^{N*k}$ (k為特征向量的個(gè)數(shù)，N為特征向量的維數(shù))。然后，利用k-means聚類算法得到了聚類結(jié)果。(注：這里作者沒(méi)說(shuō)怎么用，我認(rèn)為形成的 $U$ 就是譜聚類中對(duì)應(yīng)的降維后的矩陣，原來(lái) $N*N$ 的矩陣被轉(zhuǎn)換成 $N*k$ 的矩陣，然后利用k-means聚類)
最后利用聚類結(jié)果對(duì)無(wú)標(biāo)簽數(shù)據(jù)的CNN特征表示 $S'_u$ 進(jìn)行標(biāo)記， $l^2_{ui}$ 是 $s'_{ui}$ 的聚類標(biāo)簽。(注：這里作者也沒(méi)說(shuō)聚類標(biāo)簽和分類標(biāo)簽的對(duì)應(yīng)，因?yàn)閷?duì)于分類標(biāo)簽來(lái)說(shuō)有明確的標(biāo)簽信息，而在聚類中只存在相似性。因此，我猜測(cè)可能是通過(guò)每個(gè)類簇中有標(biāo)簽數(shù)據(jù)的Tag來(lái)對(duì)類簇標(biāo)記進(jìn)行統(tǒng)一明確的？歡迎一起討論)

當(dāng)同時(shí)得到未標(biāo)記數(shù)據(jù) $S_u$ 的分類標(biāo)簽和聚類標(biāo)簽時(shí)，由此進(jìn)行標(biāo)記傳播策略。

假設(shè) $ΔS$ 表示新增的強(qiáng)標(biāo)簽數(shù)據(jù)，它可通過(guò)以下方式獲得：

ΔS

此時(shí)對(duì)標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)進(jìn)行更新，

update data

完整的算法過(guò)程如下：

SCDMLGE

從deep metric learning角度來(lái)說(shuō)，在特征學(xué)習(xí)網(wǎng)絡(luò)部分并沒(méi)有改進(jìn)，只是同時(shí)引入了聚類算法和分類算法對(duì)數(shù)據(jù)的標(biāo)簽信息進(jìn)行了增強(qiáng)，并在標(biāo)簽傳播模塊使用了一種圖聚類方法（包括W的構(gòu)建和矩陣分解對(duì)應(yīng)的聚類），以數(shù)據(jù)更新的方式詮釋了半監(jiān)督聚類中有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的重要性，并以有標(biāo)簽數(shù)據(jù)為指導(dǎo)，充分發(fā)揮隱藏在無(wú)標(biāo)簽數(shù)據(jù)中的特性，以提高聚類效果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文閱讀“Semi-supervised clustering with deep metric learning and graph embedding”

論文閱讀“Semi-supervised clustering with deep metric learning and graph embedding”

摘要翻譯

聚類歸納

semi-supervised clustering with deep metric learning框架

（1） semi-supervised deep metric learning network

（2） k-nearest neighbors label updating strategy

Improved semi-supervised clustering with deep metric learning

（1） Semi-supervised deep metric learning and classification network

（2）Semi-supervised clustering labeling propagation network

在半監(jiān)督聚類的過(guò)程中，提出了一種改進(jìn)的圖聚類算法。

當(dāng)同時(shí)得到未標(biāo)記數(shù)據(jù) $S_u$ 的分類標(biāo)簽和聚類標(biāo)簽時(shí)，由此進(jìn)行標(biāo)記傳播策略。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文閱讀“Semi-supervised clustering with deep metric learning and graph embedding”

摘要翻譯

聚類歸納

semi-supervised clustering with deep metric learning框架

（1） semi-supervised deep metric learning network

（2） k-nearest neighbors label updating strategy

Improved semi-supervised clustering with deep metric learning

（1） Semi-supervised deep metric learning and classification network

（2）Semi-supervised clustering labeling propagation network

在半監(jiān)督聚類的過(guò)程中，提出了一種改進(jìn)的圖聚類算法。

當(dāng)同時(shí)得到未標(biāo)記數(shù)據(jù)的分類標(biāo)簽和聚類標(biāo)簽時(shí)，由此進(jìn)行標(biāo)記傳播策略。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

在半監(jiān)督聚類的過(guò)程中，提出了一種改進(jìn)的圖聚類算法。

當(dāng)同時(shí)得到未標(biāo)記數(shù)據(jù) $S_u$ 的分類標(biāo)簽和聚類標(biāo)簽時(shí)，由此進(jìn)行標(biāo)記傳播策略。