
我的博客: 我的機(jī)器學(xué)習(xí)筆記(一) - 監(jiān)督學(xué)習(xí)vs 無(wú)監(jiān)督學(xué)習(xí)
課程Wiki:Introduction
擴(kuò)展閱讀:Complete Course Notes
-
監(jiān)督學(xué)習(xí)(Supervised Learning)
在監(jiān)督學(xué)習(xí)中,給定一組數(shù)據(jù),我們知道正確的輸出結(jié)果應(yīng)該是什么樣子,并且知道在輸入和輸出之間有著一個(gè)特定的關(guān)系。這么說(shuō)可能理解起來(lái)不是很清晰,沒(méi)關(guān)系,后面有具體的例子。
-
監(jiān)督學(xué)習(xí)的分類
監(jiān)督學(xué)習(xí)可分為“回歸”和“分類”問(wèn)題。

在回歸問(wèn)題中,我們會(huì)預(yù)測(cè)一個(gè)連續(xù)值。也就是說(shuō)我們?cè)噲D將輸入變量和輸出用一個(gè)連續(xù)函數(shù)對(duì)應(yīng)起來(lái);而在分類問(wèn)題中,我們會(huì)預(yù)測(cè)一個(gè)離散值,我們?cè)噲D將輸入變量與離散的類別對(duì)應(yīng)起來(lái)。
下面舉兩個(gè)例子,就會(huì)非常清楚這幾個(gè)概念了。
-
監(jiān)督學(xué)習(xí)舉例
-
回歸
通過(guò)房地產(chǎn)市場(chǎng)的數(shù)據(jù),預(yù)測(cè)一個(gè)給定面積的房屋的價(jià)格就是一個(gè)回歸問(wèn)題。這里我們可以把價(jià)格看成是面積的函數(shù),它是一個(gè)連續(xù)的輸出值。 但是,當(dāng)把上面的問(wèn)題改為“預(yù)測(cè)一個(gè)給定面積的房屋的價(jià)格是否比一個(gè)特定的價(jià)格高或者低”的時(shí)候,這就變成了一個(gè)分類問(wèn)題, 因?yàn)榇藭r(shí)的輸出是‘高’或者‘低’兩個(gè)離散的值。

-
分類
給定醫(yī)學(xué)數(shù)據(jù),通過(guò)腫瘤的大小來(lái)預(yù)測(cè)該腫瘤是惡性瘤還是良性瘤(課程中給的是乳腺癌的例子),這就是一個(gè)分類問(wèn)題,它的輸出是0或者1兩個(gè)離散的值。(0代表良性,1代表惡性)。
分類問(wèn)題的輸出可以多于兩個(gè),比如在該例子中可以有{0,1,2,3}四種輸出,分別對(duì)應(yīng){良性, 第一類腫瘤, 第二類腫瘤, 第三類腫瘤}。
下圖中上下兩個(gè)圖只是兩種畫(huà)法。第一個(gè)是有兩個(gè)軸,Y軸表示是否是惡性瘤,X軸表示瘤的大小; 第二個(gè)是只用一個(gè)軸,但是用了不同的標(biāo)記,用O表示良性瘤,X表示惡性瘤。

在這個(gè)例子中特征只有一個(gè),那就是瘤的大小。 有時(shí)候也有兩個(gè)或者多個(gè)特征, 例如下圖, 有“年齡”和“腫瘤大小”兩個(gè)特征。(還可以有其他許多特征,如下圖右側(cè)所示)

-
無(wú)監(jiān)督學(xué)習(xí)
在無(wú)監(jiān)督學(xué)習(xí)中,我們基本上不知道結(jié)果會(huì)是什么樣子,但我們可以通過(guò)聚類的方式從數(shù)據(jù)中提取一個(gè)特殊的結(jié)構(gòu)。在無(wú)監(jiān)督學(xué)習(xí)中給定的數(shù)據(jù)是和監(jiān)督學(xué)習(xí)中給定的數(shù)據(jù)是不一樣的。在無(wú)監(jiān)督學(xué)習(xí)中給定的數(shù)據(jù)沒(méi)有任何標(biāo)簽或者說(shuō)只有同一種標(biāo)簽。如下圖所示:

如下圖所示,在無(wú)監(jiān)督學(xué)習(xí)中,我們只是給定了一組數(shù)據(jù),我們的目標(biāo)是發(fā)現(xiàn)這組數(shù)據(jù)中的特殊結(jié)構(gòu)。例如我們使用無(wú)監(jiān)督學(xué)習(xí)算法會(huì)將這組數(shù)據(jù)分成兩個(gè)不同的簇,,這樣的算法就叫聚類算法。

-
無(wú)監(jiān)督學(xué)習(xí)舉例
-
新聞分類
第一個(gè)例子舉的是Google News的例子。Google News搜集網(wǎng)上的新聞,并且根據(jù)新聞的主題將新聞分成許多簇, 然后將在同一個(gè)簇的新聞放在一起。如圖中紅圈部分都是關(guān)于BP Oil Well各種新聞的鏈接,當(dāng)打開(kāi)各個(gè)新聞鏈接的時(shí)候,展現(xiàn)的都是關(guān)于BP Oil Well的新聞。

-
根據(jù)給定基因?qū)⑷巳悍诸?/h4>
如圖是DNA數(shù)據(jù),對(duì)于一組不同的人我們測(cè)量他們DNA中對(duì)于一個(gè)特定基因的表達(dá)程度。然后根據(jù)測(cè)量結(jié)果可以用聚類算法將他們分成不同的類型。這就是一種無(wú)監(jiān)督學(xué)習(xí), 因?yàn)槲覀冎皇墙o定了一些數(shù)據(jù),而并不知道哪些是第一種類型的人,哪些是第二種類型的人等等。

-
雞尾酒派對(duì)效應(yīng)
詳見(jiàn)課程: [Unsupervised Learning](https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning" target="_blank">Unsupervised Learning)
-
其他
這里又舉了其他幾個(gè)例子,有組織計(jì)算機(jī)集群,社交網(wǎng)絡(luò)分析,市場(chǎng)劃分,天文數(shù)據(jù)分析等。具體可以看一下視頻:[Unsupervised Learning](https://www.coursera.org/learn/machine-learning/lecture/olRZo/unsupervised-learning" target="_blank">Unsupervised Learning)
