標(biāo)簽增強(qiáng)技術(shù)

LearnFromPapers系列——標(biāo)簽增強(qiáng)技術(shù)(Label Enhancement)

<center>作者:郭必?fù)P</center>
<center>時(shí)間:2020.12.29</center>

前言:我們習(xí)慣于使用one-hot標(biāo)簽來(lái)進(jìn)行模型的訓(xùn)練,但是有沒(méi)有辦法可以構(gòu)造出更好的標(biāo)簽?zāi)兀勘疚闹饕鶕?jù)東南大學(xué)的論文“Label Enhancement for Label Distribution Learning”進(jìn)行解讀和整理,從而認(rèn)識(shí)并理解在分類問(wèn)題中“標(biāo)簽增強(qiáng)”技術(shù)。

image.png
  • 論文標(biāo)題:Label Enhancement for Label Distribution Learning
  • 會(huì)議/期刊:IJCAI-18
  • 團(tuán)隊(duì):東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院

標(biāo)簽分布 & 標(biāo)簽分布學(xué)習(xí)

標(biāo)簽分布學(xué)習(xí)(Label Distribution Learning,LDL)的任務(wù)是讓模型去學(xué)習(xí)一個(gè)樣本的標(biāo)簽分布(Label Distribution),即每一個(gè)維度都反映對(duì)應(yīng)標(biāo)簽程度的一種概率分布。這樣的標(biāo)簽概率分布可以比one-hot更好地表示一個(gè)樣本的情況,原因主要有以下:

  • 一個(gè)標(biāo)簽跟樣本是否有關(guān),是一個(gè)相對(duì)的概念,即沒(méi)有一個(gè)“判斷是否相關(guān)”的絕對(duì)標(biāo)準(zhǔn);
  • 當(dāng)多個(gè)標(biāo)簽都跟樣本相關(guān)時(shí),它們的相關(guān)程度一般也是不同的;
  • 多個(gè)跟樣本不相關(guān)的標(biāo)簽,它們的不相關(guān)程度也一般是不同的。

論文作者給出了幾個(gè)生動(dòng)的例子:

image.png

然而,LDL任務(wù)的主要困難之一就是,標(biāo)簽分布是十分難以獲取的。大多數(shù)的分類數(shù)據(jù)集都不具備這樣的條件,都只有一些ligical label。所謂logical label,就是指one-hot或者multi-one-hot的label。要獲取真實(shí)的標(biāo)簽分布,理論上是需要對(duì)同一樣本進(jìn)行大量的打標(biāo),得到其統(tǒng)計(jì)分布的,但這背后的人工成本是無(wú)法承受的。

主要思想

一個(gè)自然的解決辦法就是,既然無(wú)法從外部得到樣本的標(biāo)簽分布,那就使用樣本集自身的特征空間來(lái)構(gòu)造出這樣的標(biāo)簽分布。

image.png

本文把這一類的方法稱為label Enhancement(LE),并介紹了幾種LE的方法,下面分別作簡(jiǎn)單的介紹。

幾種經(jīng)典的LE方法

1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個(gè)代表性的“軟聚類”算法(soft clustering)。它實(shí)際上是對(duì)K-Means這種“硬聚類”算法的一種改進(jìn)。K-means聚類只能將一個(gè)點(diǎn)劃分到一個(gè)簇里,而FCM則可以給出一個(gè)點(diǎn)歸屬于各個(gè)簇的概率分布。

FCM的目標(biāo)函數(shù)為:
\underset{C}{\arg \min } \sum_{i=1}^{n} \sum_{j=1}^{c} w_{i j}^{m}\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|^{2}
其中x_i是樣本點(diǎn)的特征向量,c_j是簇中心的特征向量,w^m是每個(gè)點(diǎn)歸屬于每個(gè)簇的系數(shù),c類別數(shù),n是樣本總數(shù)。
w^m的計(jì)算公式如下,顯然離某個(gè)簇越近,其系數(shù)就越大:
w_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|}{\left\|\mathbf{x}_{i}-\mathbf{c}_{k}\right\|}\right)^{\frac{2}{m-1}}}
而簇中心的計(jì)算方法為,就是所有樣本點(diǎn)特征的一個(gè)加權(quán)平均,其中m是超參數(shù),控制fuzzy的程度,越大簇之間就越模糊:
c_{k}=\frac{\sum_{x} w_{k}(x)^{m} x}{\sum_{x} w_{k}(x)^{m}}

通過(guò)FCM算法,如果設(shè)置k個(gè)簇,樣本x_i的簇概率分布就是w_i這個(gè)c維向量。

然后,構(gòu)造一個(gè)分類類別(classes)與聚類簇(clusters)之間的一個(gè)軟連接矩陣k×c的矩陣A:
A_j = A_j + w_i
即A的第j行(代表第j個(gè)類別),是由所有屬于該類別的樣本的簇分布累加而得到的。

最后,通過(guò)矩陣A與w_i點(diǎn)乘,就可以將每個(gè)樣本的簇分布(c個(gè)簇),轉(zhuǎn)化為標(biāo)簽分布(k個(gè)標(biāo)簽)了。

上面的過(guò)程,可以通過(guò)下圖來(lái)表達(dá):

image.png

2.Label Propagation(LP)

LP的主要思想是通過(guò)樣本之間的相似度矩陣,來(lái)逐步調(diào)整原本的logical label representation。

第一步,通過(guò)下面的公式,計(jì)算N個(gè)樣本之間的一個(gè)N×N的相似性矩陣A:
a_{i j}=\left\{\begin{array}{cl} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2}\right) & \text { if } i \neq j \\ 0 & \text { if } i=j \end{array}\right.

然后,根據(jù)下面的公式,構(gòu)建label propagation matrix,即標(biāo)簽傳導(dǎo)矩陣P:
\boldsymbol{P}=\hat{\boldsymbol{A}}^{-\frac{1}{2}} \boldsymbol{A} \hat{\boldsymbol{A}}^{-\frac{1}{2}}

看到這個(gè)公式,熟悉GCN的人會(huì)發(fā)現(xiàn),這不就是拉普拉斯矩陣嘛,目的主要是為了讓原本的A矩陣歸一化和對(duì)稱。圖神經(jīng)網(wǎng)絡(luò)的核心,也是鄰居節(jié)點(diǎn)之間的互相傳播,跟這里的相似樣本之間,進(jìn)行標(biāo)簽信息的傳播是類似的思想。

有了這個(gè)P傳播矩陣,就可以來(lái)通過(guò)“傳播”來(lái)構(gòu)造標(biāo)簽分布D了:
\boldsymbol{D}^{(t)}=\alpha \boldsymbol{P} \boldsymbol{D}^{(t-1)}+(1-\alpha) \boldsymbol{L}
其中L是原本的one-hot的logical label矩陣,D使用L來(lái)初始化。

通過(guò)不斷迭代上式,就可以得到一個(gè)趨于穩(wěn)定的標(biāo)簽分布矩陣D了。

還是照例畫(huà)一個(gè)圖:

image.png

3.Mainifold Learning(LM)

除了LP之外,還有一個(gè)Mainifold Learning(LM),主要思想就是假設(shè)一個(gè)樣本點(diǎn)的特征,可以完全由其相鄰點(diǎn)的特征線性表示。所謂相鄰點(diǎn),就是通過(guò)KNN得到的最近鄰。
所以第一步就是優(yōu)化下面的目標(biāo):
\Theta(\boldsymbol{W})=\sum_{i=1}^{n}\left\|\boldsymbol{x}_{i}-\sum_{j \neq i} w_{i j} \boldsymbol{x}_{j}\right\|^{2}

學(xué)習(xí)出相似節(jié)點(diǎn)之間的互相表示的方法,即某個(gè)點(diǎn)是如何被其他的鄰近點(diǎn)所線性表示的。

然后,再去優(yōu)化這個(gè)目標(biāo),得到標(biāo)簽分布:
\begin{array}{l} \Psi(\boldsymbolu0z1t8os)=\sum_{i=1}^{n}\left\|\boldsymbolu0z1t8os_{i}-\sum_{j \neq i} w_{i j} \boldsymbolu0z1t8os_{j}\right\|^{2} \\ \text { s.t. } \quad d_{\boldsymbol{x}_{i}}^{y_{i}} l_{\boldsymbol{x}_{i}}^{y_{l}}>\lambda, \forall 1 \leq i \leq n, 1 \leq j \leq c \end{array}

以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng),但是其思想我覺(jué)得我覺(jué)得都挺有意思的,由其是FCM和LP方法。

本文提出的新方法:GLLE

GLLE全稱為Graph Laplacian Label Enhancement。也是一種基于圖的思想的方法。

別看這個(gè)名字這么復(fù)雜,其實(shí)其思想很簡(jiǎn)單:

在訓(xùn)練標(biāo)簽預(yù)測(cè)模型的同時(shí),也考慮學(xué)習(xí)標(biāo)簽間的相似性。

假設(shè)我們的預(yù)測(cè)模型是這樣的:
\boldsymbolu0z1t8os_{i}=\boldsymbol{W}^{\top} \varphi\left(\boldsymbol{x}_{i}\right)+\boldsymbol=\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}

這里的d,就是要學(xué)習(xí)的標(biāo)簽分布,W就是這個(gè)預(yù)測(cè)模型的參數(shù)。

根據(jù)前面提到的思想,作者設(shè)計(jì)的目標(biāo)函數(shù)是這樣的,由兩部分組成
\min _{\hat{\boldsymbol{W}}} L(\hat{\boldsymbol{W}})+\lambda \Omega(\hat{\boldsymbol{W}})

前一個(gè)部分,就是一個(gè)普通的MSE損失函數(shù)或最小二乘損失:
L(\hat{\boldsymbol{W}})=\sum_{i=1}^{n}\left\|\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}-\boldsymbol{l}_{i}\right\|^{2}
如果只優(yōu)化這個(gè)目標(biāo),那么得到的就是一個(gè)傾向于one-hot/logical label的預(yù)測(cè)模型。

第二部分,希望相似的樣本其分布也相似
\Omega(\hat{\boldsymbol{W}})=\sum_{i, j} a_{i j}\left\|\boldsymbolu0z1t8os_{i}-\boldsymbolu0z1t8os_{j}\right\|^{2}
其中這里的a是表達(dá)樣本i和j之間的相似系數(shù),公式如下:
a_{i j}=\left\{\begin{array}{cc} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right) & \text { if } \boldsymbol{x}_{j} \in N(i) \\ 0 & \text { otherwise } \end{array}\right.

可以發(fā)現(xiàn),這里計(jì)算相似性的方法,跟Label Propagation十分相似,只是多了一個(gè)“僅在最近鄰范圍內(nèi)計(jì)算相似度”這樣的限制,因此作者稱之為“l(fā)ocal similarity matrix”。

后面作者當(dāng)然扯了一大堆這個(gè)目標(biāo)怎么求解這個(gè)優(yōu)化問(wèn)題巴拉巴拉,我是不太懂的,感覺(jué)是可以使用梯度下降法來(lái)求的。

總之,可以看出這是一個(gè)有兩個(gè)目標(biāo)的優(yōu)化問(wèn)題,通過(guò)一個(gè)λ參數(shù)控制二者的比例,同時(shí)優(yōu)化兩個(gè)方面,雖然兩個(gè)方向上都不會(huì)最優(yōu),但是可以兼顧兩個(gè)方面的效果,即最后得到的label distribution(LD)既逼近logical label,同時(shí)相似樣本之間的LD也是類似的。

各個(gè)方法結(jié)果對(duì)比:

作者主要使用了兩種方法進(jìn)行效果對(duì)比:

  • 從logical label恢復(fù)到原本的label distribution的水平
  • 利用得到的label distribution來(lái)訓(xùn)練LDL模型看預(yù)測(cè)效果

對(duì)于恢復(fù)效果,有一個(gè)自制三維數(shù)據(jù)集的可視化:

image.png

可以看出,GLLE和LP都比較接近ground truth了。

另外在其他數(shù)據(jù)集上,作者通過(guò)計(jì)算相似度來(lái)衡量使用各個(gè)LE方法來(lái)進(jìn)行模型訓(xùn)練的效果:

image.png

還有一個(gè)平均排名:

image.png

看完了這些實(shí)驗(yàn)結(jié)果,我最大的感覺(jué)就是:

LP這個(gè)方法真好的!又簡(jiǎn)單,效果又好!(基本比復(fù)雜的GLLE差不了多少,而且GLLE這個(gè)λ調(diào)參估計(jì)挺麻煩的)
但是GLLE的方法,其實(shí)也給了我們很多啟發(fā),畢竟相比于LP這種無(wú)監(jiān)督的方法,有監(jiān)督的方法肯定靈活性更強(qiáng),所以取得效果的提示也是很正常的。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容