常見機(jī)器學(xué)習(xí)算法:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)

學(xué)習(xí)算法的作用

??首先正如西瓜書中所說:

《機(jī)器學(xué)習(xí)》P1:機(jī)器學(xué)習(xí)所研究的主要內(nèi)容,是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生“模型”(model)的算法,即“學(xué)習(xí)算法”(learning algorithm)

??這句話可以理解為,學(xué)習(xí)算法基于喂入的經(jīng)驗(yàn)數(shù)據(jù)(訓(xùn)練集)建立數(shù)學(xué)模型,若檢驗(yàn)(測試集)模型誤差在容許范圍內(nèi),則該模型可以基于喂入的輸入數(shù)據(jù)幫助我們對具體的應(yīng)用場景做出判斷。

《機(jī)器學(xué)習(xí)》P1:機(jī)器學(xué)習(xí)是研究關(guān)于“學(xué)習(xí)算法”的學(xué)問

“數(shù)據(jù)集”:對樣本空間的采樣

??“數(shù)據(jù)集”(data set)中的每條記錄是一個(gè)“示例”(instance)或樣本(sample),數(shù)據(jù)集會(huì)將所描述的物體分為一種或多種“屬性”(attribute)或“特征”(feature),其取值為“屬性值”(attribute value),多個(gè)屬性可以張成“屬性空間”(attribute space),其中每個(gè)示例對應(yīng)一個(gè)“特征向量”(feature vector)。

??建立一個(gè)用于預(yù)測的模型,僅有示例數(shù)據(jù)是不夠的,我們還需要與訓(xùn)練數(shù)據(jù)一一對應(yīng)的結(jié)果信息,即“示例”的結(jié)果,稱為“標(biāo)記”(label),也稱作“教學(xué)值”,這類擁有標(biāo)記信息的示例稱為“樣例”(example)

數(shù)據(jù)集結(jié)構(gòu).jpg

訓(xùn)練與測試

??基于某種學(xué)習(xí)算法,從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)模型的過程稱為“訓(xùn)練”,所使用的經(jīng)驗(yàn)數(shù)據(jù)集稱為“訓(xùn)練集”。

??學(xué)習(xí)到的模型對應(yīng)數(shù)據(jù)集所屬樣本空間的潛在規(guī)律,因此將習(xí)得的模型稱為“假設(shè)”,而潛在規(guī)律本身則是“真相”。

??基于學(xué)習(xí)算法的訓(xùn)練過程就是使得“假設(shè)”盡可能接近“真相”,驗(yàn)證“假設(shè)”合理性的過程稱為“測試”,即測試訓(xùn)練過程所建模型的準(zhǔn)確性,此時(shí)用到的測試樣本集稱為“測試集”(testing sample)。

監(jiān)督學(xué)習(xí):回歸與分類

??對于有標(biāo)記的訓(xùn)練數(shù)據(jù),針對標(biāo)記信息的“離散”或“連續(xù)性”,將學(xué)習(xí)過程分為“分類”和“回歸”兩類。

《機(jī)器學(xué)習(xí)》P3:若欲預(yù)測的是離散值,例如“好瓜” “壞瓜”,此類學(xué)習(xí)任務(wù)稱為“分類”(classification),若欲預(yù)測連續(xù)值,例如西瓜成熟度0.95、0.37,此類學(xué)習(xí)任務(wù)稱為“回歸”(regression)。

無監(jiān)督學(xué)習(xí):聚類

??若對樣本的預(yù)測結(jié)果沒有預(yù)期,借助于算法使訓(xùn)練集自動(dòng)分類為若干組,每組稱為一個(gè)“簇”,這個(gè)過程稱為聚類(clustering)。

《機(jī)器學(xué)習(xí)》P3:
??這些自動(dòng)形成的“簇”可能對應(yīng)一些潛在的概念劃分,例如“淺色瓜” “深色瓜”,甚至“本地瓜” “外地瓜”。
??這樣的學(xué)習(xí)過程有助于我們了解數(shù)據(jù)內(nèi)在的規(guī)律,能為更深入地分析數(shù)據(jù)建立基礎(chǔ)。

《機(jī)器學(xué)習(xí)》P3:需要說明的是,在聚類學(xué)習(xí)中,“淺色瓜” “本地瓜”這樣的概念我們事先是不知道的,而且學(xué)習(xí)過程中使用的訓(xùn)練樣本通常不具有標(biāo)記信息。

半監(jiān)督學(xué)習(xí)

參考:目前,利用未標(biāo)記示例的主流學(xué)習(xí)技術(shù)主要有三大類,即半監(jiān)督學(xué)習(xí)(semi-supervised learning)、直推學(xué)習(xí)(transductive learning)和主動(dòng)學(xué)習(xí)(active learning)。

圖片來源

主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、直推學(xué)習(xí)

??首先需要說明的是,利用無標(biāo)記數(shù)據(jù)集的算法有多種,本文主要關(guān)注半監(jiān)督學(xué)習(xí)。

??事實(shí)上對數(shù)據(jù)進(jìn)行標(biāo)記的代價(jià)較大,標(biāo)記數(shù)據(jù)需要付出大量的人力物力,具有標(biāo)記的數(shù)據(jù)集較難獲取,但是隨著數(shù)據(jù)收集與存儲(chǔ)技術(shù)的發(fā)展,未經(jīng)標(biāo)記的數(shù)據(jù)卻較容易獲得。舉個(gè)具體的例子,

??在計(jì)算機(jī)輔助醫(yī)學(xué)圖像分析中,我們可以從醫(yī)院獲得大量的醫(yī)學(xué)圖像作為訓(xùn)練集用于數(shù)據(jù)分析,但是若要求大夫標(biāo)注出每張圖片上的病灶位置,這就需要大量的人力、物力、時(shí)間。

??針對上述實(shí)際問題,出現(xiàn)了半監(jiān)督學(xué)習(xí)的概念。半監(jiān)督學(xué)習(xí)的特點(diǎn)是將未標(biāo)記數(shù)據(jù)與少量標(biāo)記數(shù)據(jù)結(jié)合使用,能夠同時(shí)利用監(jiān)督學(xué)習(xí)的低歧義性無監(jiān)督學(xué)習(xí)對數(shù)據(jù)結(jié)構(gòu)性特征的捕捉能力。

??首先,為何可以利用無標(biāo)記數(shù)據(jù)集改善學(xué)習(xí)性能?

參考:
在介紹具體的半監(jiān)督學(xué)習(xí)技術(shù)之前,有必要先探討一下為什么可以利用未標(biāo)記示例來改善學(xué)習(xí)性能。關(guān)于這個(gè)問題,有不少研究者給出了解釋。例如,D.J. Miller 和 H.S. Uyar [MillerU97] 從數(shù)據(jù)分布估計(jì)的角度給出了一個(gè)直觀的分析。他們假設(shè)所有數(shù)據(jù)服從于某個(gè)由 L 個(gè)高斯分布混合而成的分布,即

公式1
其中
為混合系數(shù),
為參數(shù)。
這樣,標(biāo)記就可視為一個(gè)由選定的混合成分mi和特征向量xi以概率P(ci | xi, mi) 決定的隨機(jī)變量。于是,根據(jù)最大后驗(yàn)概率假設(shè),最優(yōu)分類由式 2 給出:
其中:
這樣,學(xué)習(xí)目標(biāo)就變成了利用訓(xùn)練例來估計(jì)P(ci = k | mj = j, xi)和P(mi = j | x)。這兩項(xiàng)中的第一項(xiàng)與類別標(biāo)記有關(guān),而第二項(xiàng)并不依賴于示例的標(biāo)記,因此,如果有大量的未標(biāo)記示例可用,則意味著能夠用于估計(jì)第二項(xiàng)的示例數(shù)顯著增多,這會(huì)使得第二項(xiàng)的估計(jì)變得更加準(zhǔn)確,從而導(dǎo)致式 2 更加準(zhǔn)確,也就是說,分類器的泛化能力得以提高。此后,T. Zhang和F. J. Oles [ZhangO00] 進(jìn)一步分析了未標(biāo)記示例在半監(jiān)督學(xué)習(xí)中的價(jià)值,并指出如果一個(gè)參數(shù)化模型如果能夠分解成P(x, y | θ) = P(y| x, θ) P(x | θ) 的形式,那么未標(biāo)記示例的價(jià)值就體現(xiàn)在它們能夠幫助更好地估計(jì)模型參數(shù)從而導(dǎo)致模型性能的提高。

強(qiáng)化學(xué)習(xí)

??強(qiáng)化學(xué)習(xí)的思路類似于績效獎(jiǎng)勵(lì)的過程,它對取得好結(jié)果的策
略加強(qiáng)訓(xùn)練以繼續(xù)取得較好的結(jié)果。

??區(qū)別于前三種學(xué)習(xí)方式,強(qiáng)化學(xué)習(xí)不需要喂入大量的數(shù)據(jù),而是通過自己不停地嘗試學(xué)會(huì)某種技能。

??強(qiáng)化學(xué)習(xí)作為一種還不成熟的學(xué)習(xí)算法,目前最主要的應(yīng)用場景是游戲、機(jī)器人等。

強(qiáng)化學(xué)習(xí)的過程

2016年:AlphaGo Master 擊敗李世石,使用強(qiáng)化學(xué)習(xí)的 AlphaGo Zero 僅花了40天時(shí)間,就擊敗了自己的前輩 AlphaGo Master。
《被科學(xué)家譽(yù)為「世界壯舉」的AlphaGo Zero, 對普通人意味著什么?》
2019年1月25日:AlphaStar 在《星際爭霸2》中以 10:1 擊敗了人類頂級職業(yè)玩家。
《星際爭霸2人類1:10輸給AI!DeepMind “AlphaStar”進(jìn)化神速》
2019年4月13日:OpenAI 在《Dota2》的比賽中戰(zhàn)勝了人類世界冠軍。
《2:0!Dota2世界冠軍OG,被OpenAI按在地上摩擦》

總結(jié)

  • 監(jiān)督學(xué)習(xí) 與 無監(jiān)督學(xué)習(xí)

《機(jī)器學(xué)習(xí)》P3:根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可大致劃分為兩大類:“監(jiān)督學(xué)習(xí)”(supervised learning)和“無監(jiān)督學(xué)習(xí)”(unsupervised learning),分類和回歸是前者的代表,而聚類則是后者的代表。

??進(jìn)一步理解這段話:

??監(jiān)督學(xué)習(xí)對模型的輸出有既定的預(yù)期(訓(xùn)練集有l(wèi)abel,即教學(xué)值),而無監(jiān)督學(xué)習(xí)對輸出沒有預(yù)期(無教學(xué)值),輸入數(shù)據(jù)依賴基于算法建立的模型自動(dòng)分類。

??“監(jiān)督學(xué)習(xí)”利用教學(xué)值(label,期望輸出)與模型實(shí)際輸出值(訓(xùn)練集的輸出)間的誤差(合適的LOSS函數(shù)),借助反向傳播算法(BP)修正權(quán)重,從而使得實(shí)際輸出與理想輸出間的誤差盡可能小。

??結(jié)合西瓜分類的例子,監(jiān)督學(xué)習(xí)在訓(xùn)練前便已知輸出會(huì)有“好瓜” “壞瓜”的區(qū)分,而無監(jiān)督學(xué)習(xí)會(huì)將西瓜聚類成幾種完全沒有提前定義的種類,這是在輸出產(chǎn)生后才做出的種類劃分。

??無監(jiān)督學(xué)習(xí)主要是用于發(fā)現(xiàn)數(shù)據(jù)集中的結(jié)構(gòu)性特點(diǎn),無監(jiān)督的過程具有可解釋性,無監(jiān)督算法可以告訴我們聚類的依據(jù),每類有多少一致性,為何要如此分類。而監(jiān)督學(xué)習(xí)的過程不具備解釋性,依據(jù)反向傳播算法降低LOSS只是單純的計(jì)算過程,無法對參數(shù)的取值做出解釋,它只是在降低LOSS。

  • 半監(jiān)督學(xué)習(xí)

??半監(jiān)督學(xué)習(xí)是大量無標(biāo)記數(shù)據(jù)與少量標(biāo)記數(shù)據(jù)的結(jié)合,與監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)準(zhǔn)確率更高、訓(xùn)練成本更低。

  • 強(qiáng)化學(xué)習(xí)

??所謂強(qiáng)化學(xué)習(xí)就是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(強(qiáng)化信號)函數(shù)值最大,由于外部給出的信息很少,強(qiáng)化學(xué)習(xí)系統(tǒng)必須依靠自身的經(jīng)歷進(jìn)行自我學(xué)習(xí)。通過這種學(xué)習(xí)獲取知識,改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容