LearnFromPapers系列——標(biāo)簽增強(qiáng)技術(shù)（Label Enhancement）

前言：我們習(xí)慣于使用one-hot標(biāo)簽來(lái)進(jìn)行模型的訓(xùn)練，但是有沒(méi)有辦法可以構(gòu)造出更好的標(biāo)簽?zāi)兀勘疚闹饕鶕?jù)東南大學(xué)的論文“Label Enhancement for Label Distribution Learning”進(jìn)行解讀和整理，從而認(rèn)識(shí)并理解在分類問(wèn)題中“標(biāo)簽增強(qiáng)”技術(shù)。

image.png

論文標(biāo)題：Label Enhancement for Label Distribution Learning
會(huì)議/期刊：IJCAI-18
團(tuán)隊(duì)：東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院

標(biāo)簽分布 & 標(biāo)簽分布學(xué)習(xí)

標(biāo)簽分布學(xué)習(xí)（Label Distribution Learning，LDL）的任務(wù)是讓模型去學(xué)習(xí)一個(gè)樣本的標(biāo)簽分布（Label Distribution），即每一個(gè)維度都反映對(duì)應(yīng)標(biāo)簽程度的一種概率分布。這樣的標(biāo)簽概率分布可以比one-hot更好地表示一個(gè)樣本的情況，原因主要有以下：

一個(gè)標(biāo)簽跟樣本是否有關(guān)，是一個(gè)相對(duì)的概念，即沒(méi)有一個(gè)“判斷是否相關(guān)”的絕對(duì)標(biāo)準(zhǔn)；
當(dāng)多個(gè)標(biāo)簽都跟樣本相關(guān)時(shí)，它們的相關(guān)程度一般也是不同的；
多個(gè)跟樣本不相關(guān)的標(biāo)簽，它們的不相關(guān)程度也一般是不同的。

論文作者給出了幾個(gè)生動(dòng)的例子：

image.png

然而，LDL任務(wù)的主要困難之一就是，標(biāo)簽分布是十分難以獲取的。大多數(shù)的分類數(shù)據(jù)集都不具備這樣的條件，都只有一些ligical label。所謂logical label，就是指one-hot或者multi-one-hot的label。要獲取真實(shí)的標(biāo)簽分布，理論上是需要對(duì)同一樣本進(jìn)行大量的打標(biāo)，得到其統(tǒng)計(jì)分布的，但這背后的人工成本是無(wú)法承受的。

主要思想

一個(gè)自然的解決辦法就是，既然無(wú)法從外部得到樣本的標(biāo)簽分布，那就使用樣本集自身的特征空間來(lái)構(gòu)造出這樣的標(biāo)簽分布。

image.png

本文把這一類的方法稱為label Enhancement（LE），并介紹了幾種LE的方法，下面分別作簡(jiǎn)單的介紹。

幾種經(jīng)典的LE方法

1. Fuzzy C-Means(FCM)

Fuzzy C-Means 是一個(gè)代表性的“軟聚類”算法（soft clustering）。它實(shí)際上是對(duì)K-Means這種“硬聚類”算法的一種改進(jìn)。K-means聚類只能將一個(gè)點(diǎn)劃分到一個(gè)簇里，而FCM則可以給出一個(gè)點(diǎn)歸屬于各個(gè)簇的概率分布。

FCM的目標(biāo)函數(shù)為：
$\underset{C}{\arg \min } \sum_{i=1}^{n} \sum_{j=1}^{c} w_{i j}^{m}\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|^{2}$
其中 $x_i$ 是樣本點(diǎn)的特征向量， $c_j$ 是簇中心的特征向量， $w^m$ 是每個(gè)點(diǎn)歸屬于每個(gè)簇的系數(shù)， $c$ 類別數(shù)， $n$ 是樣本總數(shù)。
$w^m$ 的計(jì)算公式如下，顯然離某個(gè)簇越近，其系數(shù)就越大：
$w_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|\mathbf{x}_{i}-\mathbf{c}_{j}\right\|}{\left\|\mathbf{x}_{i}-\mathbf{c}_{k}\right\|}\right)^{\frac{2}{m-1}}}$
而簇中心的計(jì)算方法為，就是所有樣本點(diǎn)特征的一個(gè)加權(quán)平均，其中m是超參數(shù)，控制fuzzy的程度，越大簇之間就越模糊：
$c_{k}=\frac{\sum_{x} w_{k}(x)^{m} x}{\sum_{x} w_{k}(x)^{m}}$

通過(guò)FCM算法，如果設(shè)置k個(gè)簇，樣本 $x_i$ 的簇概率分布就是 $w_i$ 這個(gè)c維向量。

然后，構(gòu)造一個(gè)分類類別（classes）與聚類簇（clusters）之間的一個(gè)軟連接矩陣k×c的矩陣A：
$A_j = A_j + w_i$
即A的第j行（代表第j個(gè)類別），是由所有屬于該類別的樣本的簇分布累加而得到的。

最后，通過(guò)矩陣A與 $w_i$ 點(diǎn)乘，就可以將每個(gè)樣本的簇分布（c個(gè)簇），轉(zhuǎn)化為標(biāo)簽分布（k個(gè)標(biāo)簽）了。

上面的過(guò)程，可以通過(guò)下圖來(lái)表達(dá)：

image.png

2.Label Propagation（LP）

LP的主要思想是通過(guò)樣本之間的相似度矩陣，來(lái)逐步調(diào)整原本的logical label representation。

第一步，通過(guò)下面的公式，計(jì)算N個(gè)樣本之間的一個(gè)N×N的相似性矩陣A：
$a_{i j}=\left\{\begin{array}{cl} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2}\right) & \text { if } i \neq j \\ 0 & \text { if } i=j \end{array}\right.$

然后，根據(jù)下面的公式，構(gòu)建label propagation matrix，即標(biāo)簽傳導(dǎo)矩陣P：
$\boldsymbol{P}=\hat{\boldsymbol{A}}^{-\frac{1}{2}} \boldsymbol{A} \hat{\boldsymbol{A}}^{-\frac{1}{2}}$

看到這個(gè)公式，熟悉GCN的人會(huì)發(fā)現(xiàn)，這不就是拉普拉斯矩陣嘛，目的主要是為了讓原本的A矩陣歸一化和對(duì)稱。圖神經(jīng)網(wǎng)絡(luò)的核心，也是鄰居節(jié)點(diǎn)之間的互相傳播，跟這里的相似樣本之間，進(jìn)行標(biāo)簽信息的傳播是類似的思想。

有了這個(gè)P傳播矩陣，就可以來(lái)通過(guò)“傳播”來(lái)構(gòu)造標(biāo)簽分布D了：
$\boldsymbol{D}^{(t)}=\alpha \boldsymbol{P} \boldsymbol{D}^{(t-1)}+(1-\alpha) \boldsymbol{L}$
其中L是原本的one-hot的logical label矩陣，D使用L來(lái)初始化。

通過(guò)不斷迭代上式，就可以得到一個(gè)趨于穩(wěn)定的標(biāo)簽分布矩陣D了。

還是照例畫(huà)一個(gè)圖：

image.png

3.Mainifold Learning（LM）

除了LP之外，還有一個(gè)Mainifold Learning（LM），主要思想就是假設(shè)一個(gè)樣本點(diǎn)的特征，可以完全由其相鄰點(diǎn)的特征線性表示。所謂相鄰點(diǎn)，就是通過(guò)KNN得到的最近鄰。
所以第一步就是優(yōu)化下面的目標(biāo)：
$\Theta(\boldsymbol{W})=\sum_{i=1}^{n}\left\|\boldsymbol{x}_{i}-\sum_{j \neq i} w_{i j} \boldsymbol{x}_{j}\right\|^{2}$

學(xué)習(xí)出相似節(jié)點(diǎn)之間的互相表示的方法，即某個(gè)點(diǎn)是如何被其他的鄰近點(diǎn)所線性表示的。

然后，再去優(yōu)化這個(gè)目標(biāo)，得到標(biāo)簽分布：
$\begin{array}{l} \Psi(\boldsymbolu0z1t8os)=\sum_{i=1}^{n}\left\|\boldsymbolu0z1t8os_{i}-\sum_{j \neq i} w_{i j} \boldsymbolu0z1t8os_{j}\right\|^{2} \\ \text { s.t. } \quad d_{\boldsymbol{x}_{i}}^{y_{i}} l_{\boldsymbol{x}_{i}}^{y_{l}}>\lambda, \forall 1 \leq i \leq n, 1 \leq j \leq c \end{array}$

以上是三種傳統(tǒng)的Label Enhancement方法。雖然傳統(tǒng)，但是其思想我覺(jué)得我覺(jué)得都挺有意思的，由其是FCM和LP方法。

本文提出的新方法：GLLE

GLLE全稱為Graph Laplacian Label Enhancement。也是一種基于圖的思想的方法。

別看這個(gè)名字這么復(fù)雜，其實(shí)其思想很簡(jiǎn)單：

在訓(xùn)練標(biāo)簽預(yù)測(cè)模型的同時(shí)，也考慮學(xué)習(xí)標(biāo)簽間的相似性。

假設(shè)我們的預(yù)測(cè)模型是這樣的：
$\boldsymbolu0z1t8os_{i}=\boldsymbol{W}^{\top} \varphi\left(\boldsymbol{x}_{i}\right)+\boldsymbol=\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}$

這里的d，就是要學(xué)習(xí)的標(biāo)簽分布，W就是這個(gè)預(yù)測(cè)模型的參數(shù)。

根據(jù)前面提到的思想，作者設(shè)計(jì)的目標(biāo)函數(shù)是這樣的，由兩部分組成：
$\min _{\hat{\boldsymbol{W}}} L(\hat{\boldsymbol{W}})+\lambda \Omega(\hat{\boldsymbol{W}})$

前一個(gè)部分，就是一個(gè)普通的MSE損失函數(shù)或最小二乘損失：
$L(\hat{\boldsymbol{W}})=\sum_{i=1}^{n}\left\|\hat{\boldsymbol{W}} \boldsymbol{\phi}_{i}-\boldsymbol{l}_{i}\right\|^{2}$
如果只優(yōu)化這個(gè)目標(biāo)，那么得到的就是一個(gè)傾向于one-hot/logical label的預(yù)測(cè)模型。

第二部分，希望相似的樣本其分布也相似：
$\Omega(\hat{\boldsymbol{W}})=\sum_{i, j} a_{i j}\left\|\boldsymbolu0z1t8os_{i}-\boldsymbolu0z1t8os_{j}\right\|^{2}$
其中這里的a是表達(dá)樣本i和j之間的相似系數(shù)，公式如下：
$a_{i j}=\left\{\begin{array}{cc} \exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right) & \text { if } \boldsymbol{x}_{j} \in N(i) \\ 0 & \text { otherwise } \end{array}\right.$

可以發(fā)現(xiàn)，這里計(jì)算相似性的方法，跟Label Propagation十分相似，只是多了一個(gè)“僅在最近鄰范圍內(nèi)計(jì)算相似度”這樣的限制，因此作者稱之為“l(fā)ocal similarity matrix”。

后面作者當(dāng)然扯了一大堆這個(gè)目標(biāo)怎么求解這個(gè)優(yōu)化問(wèn)題巴拉巴拉，我是不太懂的，感覺(jué)是可以使用梯度下降法來(lái)求的。

總之，可以看出這是一個(gè)有兩個(gè)目標(biāo)的優(yōu)化問(wèn)題，通過(guò)一個(gè)λ參數(shù)控制二者的比例，同時(shí)優(yōu)化兩個(gè)方面，雖然兩個(gè)方向上都不會(huì)最優(yōu)，但是可以兼顧兩個(gè)方面的效果，即最后得到的label distribution（LD）既逼近logical label，同時(shí)相似樣本之間的LD也是類似的。

各個(gè)方法結(jié)果對(duì)比：

作者主要使用了兩種方法進(jìn)行效果對(duì)比：

從logical label恢復(fù)到原本的label distribution的水平
利用得到的label distribution來(lái)訓(xùn)練LDL模型看預(yù)測(cè)效果

對(duì)于恢復(fù)效果，有一個(gè)自制三維數(shù)據(jù)集的可視化：

image.png

可以看出，GLLE和LP都比較接近ground truth了。

另外在其他數(shù)據(jù)集上，作者通過(guò)計(jì)算相似度來(lái)衡量使用各個(gè)LE方法來(lái)進(jìn)行模型訓(xùn)練的效果：

image.png

還有一個(gè)平均排名：

image.png

看完了這些實(shí)驗(yàn)結(jié)果，我最大的感覺(jué)就是：

LP這個(gè)方法真好的！又簡(jiǎn)單，效果又好！（基本比復(fù)雜的GLLE差不了多少，而且GLLE這個(gè)λ調(diào)參估計(jì)挺麻煩的）
但是GLLE的方法，其實(shí)也給了我們很多啟發(fā)，畢竟相比于LP這種無(wú)監(jiān)督的方法，有監(jiān)督的方法肯定靈活性更強(qiáng)，所以取得效果的提示也是很正常的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

標(biāo)簽增強(qiáng)技術(shù)

標(biāo)簽增強(qiáng)技術(shù)

LearnFromPapers系列——標(biāo)簽增強(qiáng)技術(shù)（Label Enhancement）

標(biāo)簽分布 & 標(biāo)簽分布學(xué)習(xí)

主要思想