西瓜書(shū) 第十三章 半監(jiān)督學(xué)習(xí)

主動(dòng)學(xué)習(xí)

利用訓(xùn)練集中已標(biāo)記的樣本訓(xùn)練一個(gè)模型,利用這個(gè)模型隨機(jī)的選取一個(gè)未標(biāo)記樣本,通過(guò)與外界交互得到該樣本的標(biāo)記,然后加入已標(biāo)記數(shù)據(jù)重新訓(xùn)練一個(gè)模型,不斷的重復(fù)上述過(guò)程,直到模型的性能不在提高為止。

半監(jiān)督學(xué)習(xí)基于的假設(shè)

半監(jiān)督學(xué)習(xí)主要基于兩種假設(shè):
聚類假設(shè),即假設(shè)數(shù)據(jù)存在簇結(jié)果,同一個(gè)簇的樣本屬于同一個(gè)類別。
流形假設(shè),即假設(shè)數(shù)據(jù)分布在一個(gè)流形結(jié)構(gòu)上,鄰近的樣本擁有相似的輸出值。
兩者的本質(zhì)都是相似的樣本擁有相似的輸出。

半監(jiān)督學(xué)習(xí)目的

讓學(xué)習(xí)器不依賴外界交互、自動(dòng)地利用未標(biāo)記樣本來(lái)提升學(xué)習(xí)性能。

半監(jiān)督學(xué)習(xí)的劃分

半監(jiān)督學(xué)習(xí)可分為兩類:
純半監(jiān)督學(xué)習(xí),假定訓(xùn)練數(shù)據(jù)中的未標(biāo)記樣本并非待預(yù)測(cè)的數(shù)據(jù),希望通過(guò)對(duì)訓(xùn)練數(shù)據(jù)中所有數(shù)據(jù)進(jìn)行學(xué)習(xí),從而得到一個(gè)模型適用于訓(xùn)練過(guò)程中未觀察到的數(shù)據(jù)。簡(jiǎn)而言之,就是該模型將訓(xùn)練集中不管有無(wú)標(biāo)記都當(dāng)做訓(xùn)練樣本從而來(lái)得到一個(gè)可以適用于那些未在訓(xùn)練集中出現(xiàn)的數(shù)據(jù)。
直推學(xué)習(xí),假定訓(xùn)練集中所有為標(biāo)記的樣本是待測(cè)數(shù)據(jù),通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),然后得到一個(gè)適用于訓(xùn)練集中為標(biāo)記的數(shù)據(jù)的模型。

三種學(xué)習(xí)的圖解.PNG

生成式方法

生成式方法是直接基于生成式模型的方法。先說(shuō)一下該方法的思路:該方法先假設(shè)所有的數(shù)據(jù)都是由同一個(gè)潛在的模型“生成”的,假設(shè)樣本基于高斯混合模型生成,每一個(gè)類對(duì)應(yīng)一個(gè)高斯混合成分(每一個(gè)高斯混合成分都是基于同一個(gè)高斯混合模型只是其中的參數(shù)u_i,\Sigma_i不一樣),計(jì)算未標(biāo)記的樣本屬于每個(gè)高斯混合分布的后驗(yàn)概率,最大的后驗(yàn)概率的高斯混合分布所對(duì)應(yīng)的類別為該樣本的標(biāo)記,通過(guò)對(duì)這些未標(biāo)記樣本全部標(biāo)記后對(duì)高斯混合分布的參數(shù)進(jìn)行更新,再重復(fù)上面的步驟不斷迭代,直到收斂。接下來(lái)我們一起來(lái)看看該方法的數(shù)學(xué)推導(dǎo)過(guò)程。

假設(shè)樣本由高斯混合分布模型生成,且每一個(gè)類別對(duì)應(yīng)一個(gè)高斯混合成分,即數(shù)據(jù)樣本是基于以下概率密度生成:

13.1.PNG
其中p(x|u_i,\Sigma_i)是樣本x屬于第i個(gè)高斯混合成分的概率。
推導(dǎo)過(guò)程:
13.2.png
其中p(\theta=i|x)=\frac{a_i*p(x|u_i,\Sigma_i)}{\sum^N_{i=1}a_i*p(x|u_i.\Sigma_i)}為樣本x由第i個(gè)高斯混合成分生成的后驗(yàn)概率。

通過(guò)上式13.2可知前半段與樣本的標(biāo)記有關(guān),但是只要后驗(yàn)概率足夠大,那么f(x)對(duì)于樣本的類別估計(jì)則更為準(zhǔn)確,因此可以轉(zhuǎn)化為樣本屬于哪個(gè)高斯混合成分的后驗(yàn)概率大則該樣本的標(biāo)記便為該高斯混合成分所對(duì)應(yīng)的類別。

用極大似然估計(jì)法來(lái)估計(jì)高斯混合模型的參數(shù)\{(a_I,u_i,\Sigma_i)|1≤i≤N\},D_l(有標(biāo)記樣本集)∪D_u(未標(biāo)記樣本集)的對(duì)數(shù)似然是:LL(D_l∪D_u)=\sum_{(x_j,y_j)∈D_l}ln(\sum^N_{i=1}a_i*p(x_j|u_i,\Sigma_i)*p(y_j|\theta=i,x_j))+\sum_{x_j∈D_u}ln(\sum^N_{i=1}a_i*p(x_j|u_i,\Sigma_i)).
根據(jù)上面的兩個(gè)式子,我們可以利用EM算法來(lái)解,由初始參數(shù)估計(jì)樣本的后驗(yàn)概率,再由這些概率確定樣本的類別根據(jù)這些已標(biāo)記的樣本來(lái)更新高斯混合模型參數(shù),不斷迭代直到收斂。
EM算法.png

半監(jiān)督SVM

半監(jiān)督支出向量機(jī)(S3VM)是支持向量機(jī)在半監(jiān)督學(xué)習(xí)上的推廣,在不考慮未標(biāo)記樣本時(shí),支持向量機(jī)試圖找到最大間隔劃分超平面,而在考慮未標(biāo)記樣本后,S3VM試圖找到能將兩類有標(biāo)記樣本分開(kāi),且穿過(guò)數(shù)據(jù)低密度區(qū)域的劃分超平面。其中最著名的是TSVM。

TSVM試圖考慮對(duì)未標(biāo)記樣本進(jìn)行各種可能的標(biāo)記指派,即嘗試將每個(gè)未標(biāo)記樣本分別作為正例和反例,然后在所有這些結(jié)果中尋求一個(gè)在所有樣本(包括有標(biāo)記樣本和進(jìn)行了標(biāo)記指派的未標(biāo)記樣本)上間隔最大化的劃分超平面。先介紹一下TSVM的思路:先利用有標(biāo)記的樣本訓(xùn)練得到一個(gè)SVM,利用這個(gè)SVM來(lái)對(duì)未標(biāo)記的樣本進(jìn)行一個(gè)標(biāo)記,稱為“偽標(biāo)記”,找出兩個(gè)指派為異類且最可能出錯(cuò)的未標(biāo)記樣本,交換他們的標(biāo)記,再重新求解劃分平面和松弛變量,不斷的迭代調(diào)整,直到兩個(gè)模型參數(shù)相等。

TSVM的學(xué)習(xí)目標(biāo):為未標(biāo)記樣本集給出預(yù)測(cè),使得

TSVM學(xué)習(xí)目標(biāo).png
其中,(w,b)確定一個(gè)劃分超平面;\xi為松弛變量,\xi_i(i=1,2,...,l)對(duì)應(yīng)有標(biāo)記樣本,\xi_i(i=l+1,l+2,..,m)對(duì)應(yīng)未標(biāo)記樣本;C_l與C_u是由用戶指定的用于平衡模型復(fù)雜度、有標(biāo)記樣本與未標(biāo)記樣本重要程度的折中參數(shù)。
【注:在迭代開(kāi)始時(shí),C_u要比C_l小,使有標(biāo)記的樣本起作用更大,隨著算法的調(diào)整不斷增大直到兩個(gè)參數(shù)相等】
TSVM算法.png

圖半監(jiān)督學(xué)習(xí)

將數(shù)據(jù)集映射為一個(gè)圖,每個(gè)樣本對(duì)應(yīng)圖上一個(gè)結(jié)點(diǎn),若兩個(gè)樣本之間的相似度很高,則對(duì)于的結(jié)點(diǎn)之間存在一條邊,邊的強(qiáng)度正比于樣本之間的相似度,有標(biāo)記的樣本為染過(guò)色的,未標(biāo)記樣本尚未染色,于是半監(jiān)督學(xué)習(xí)就是“顏色”在圖上擴(kuò)散傳播的過(guò)程,由于一個(gè)圖對(duì)應(yīng)一個(gè)矩陣,這使得我們能基于矩陣運(yùn)算來(lái)進(jìn)行半監(jiān)督學(xué)習(xí)算法的推導(dǎo)與分析。

下面來(lái)介紹一下圖半監(jiān)督學(xué)習(xí)的過(guò)程:首先假設(shè)一個(gè)圖G=(V,E)其中V是結(jié)點(diǎn)集合,邊集E是是親和矩陣,?;诟咚购瘮?shù)定義。這個(gè)圖是V通過(guò)映射產(chǎn)生的,所以我們可以從圖G學(xué)得一個(gè)映射f:V→R,通過(guò)這個(gè)f定義了f的“能量函數(shù)”,最后推導(dǎo)出了f_u通過(guò)它可以對(duì)未標(biāo)記樣本進(jìn)行預(yù)測(cè)。

迭代式標(biāo)記傳播算法.png

基于分歧的方法

基于分歧的方法通過(guò)多學(xué)習(xí)器之間的分歧和多樣性來(lái)利用未標(biāo)記樣本不斷迭代更新,最終直到訓(xùn)練器不再變化。協(xié)同訓(xùn)練就是其中的一種經(jīng)典方法。協(xié)同訓(xùn)練最初針對(duì)多視圖數(shù)據(jù)設(shè)計(jì)的。
多視圖數(shù)據(jù):一個(gè)數(shù)據(jù)擁有多個(gè)屬性集,每個(gè)屬性集構(gòu)成一個(gè)試圖。如:一部電影中有聲音和畫(huà)面類屬性,聲音類屬性對(duì)應(yīng)一個(gè)視圖。

相容性:即每一個(gè)視圖訓(xùn)練出來(lái)的學(xué)習(xí)器的輸出空間信息是一致的。
互補(bǔ)性:即不同視圖所提供的信息是互補(bǔ)/相輔相成的,實(shí)質(zhì)上這里體現(xiàn)的是集成學(xué)習(xí)的思想。

協(xié)調(diào)訓(xùn)練正是利用了多視圖的相容互補(bǔ)性,利用充分且條件獨(dú)立視圖訓(xùn)練出各自的學(xué)習(xí)器,讓每一個(gè)學(xué)習(xí)器為自己最有把握的未標(biāo)記樣本賦予偽標(biāo)記,將這些偽標(biāo)記樣本提供給另一個(gè)分類器作為新增加的有標(biāo)記樣本用于訓(xùn)練更新,從而不斷迭代,直到訓(xùn)練器不再變化或者滿足迭代次數(shù)。

協(xié)同訓(xùn)練過(guò)程.png
協(xié)同訓(xùn)練算法.png

半監(jiān)督聚類

聚類是一種無(wú)監(jiān)督的學(xué)習(xí)任務(wù),但是在現(xiàn)實(shí)中我們往往可以利用監(jiān)督信息來(lái)獲得更好的聚類效果。聚類中的監(jiān)督信息大致有兩種:
①必連與勿連約束:必連指樣本必屬于同一個(gè)簇,勿連指一定不屬于同一個(gè)簇。
②標(biāo)記信息:少量樣本帶有標(biāo)記信息。

下面介紹兩種兩種基于半監(jiān)督的K-Means聚類算法:第一種基于必連與勿連約束,稱為約束k均值算法,在利用k均值分類過(guò)程時(shí),檢測(cè)當(dāng)前劃分是否滿足必連與勿連約束,若不滿足則將該樣本劃分到距離次小于當(dāng)前簇的對(duì)應(yīng)簇中,再檢驗(yàn)是否滿足約束,直到所有樣本劃分完畢。

約束k均值算法.png

第二種基于少量有標(biāo)記樣本的監(jiān)督信息,根據(jù)給定的樣本集中的少量有標(biāo)記樣本來(lái)指定類中心,且在聚類簇迭代過(guò)程中不需要改變這些有標(biāo)記樣本的簇隸屬關(guān)系,通過(guò)最開(kāi)始指定類中心進(jìn)行劃分,根據(jù)劃分后的結(jié)果重新更新類中心,不斷迭代。
約束種子k均值算法.png

參考:https://blog.csdn.net/qq_40061421/article/details/98185510
https://blog.csdn.net/qq_40061421/article/details/98185510

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容