機器學習&監(jiān)督學習&非監(jiān)督學習概念
機器學習
Tom Mitchell provides a more modern definition: "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E."
概念:一個程序被認為能從經(jīng)驗E中學習,解決任務 T,達到 性能度量值P,當且僅當, 有了經(jīng)驗E后,經(jīng)過P評判, 程序在處理 T 時的性能有所提升
一言以蔽之:舉一反三,舉一反四
示例:玩跳棋。
- E =打很多棋子的經(jīng)驗
- T =玩跳棋的任務。
- P =程序?qū)②A得下一場比賽的概率。
什么是監(jiān)督學習 Supervised Learning
概念:在監(jiān)督學習中,我們獲得了一個數(shù)據(jù)集,并且已經(jīng)知道我們正確的輸出應該是什么樣子的,這意味著輸入和輸出之間有一個關系。
注解:有一個函數(shù)可以對應輸入和輸出的關系,我們自己知道結果
受監(jiān)督的學習問題分為“回歸”和“分類”問題。在回歸問題中,我們試圖在連續(xù)輸出中預測結果,這意味著我們正在嘗試將輸入變量映射到某些連續(xù)函數(shù)。在分類問題中,我們試圖用離散輸出來預測結果。換句話說,我們正在嘗試將輸入變量映射到離散類別。
定量輸出稱為回歸,或者說是連續(xù)變量預測;
定性輸出稱為分類,或者說是離散變量預測。
舉個例子:
預測明天的氣溫是多少度,這是一個回歸任務;
預測明天是陰、晴還是雨,就是一個分類任務。
示例1:
給出關于房地產(chǎn)市場規(guī)模的數(shù)據(jù),嘗試預測房價。價格作為大小的函數(shù)是連續(xù)的輸出,所以這是一個回歸問題。
我們可以將這個例子變成一個分類問題,而不是讓我們的產(chǎn)出是關于房子“賣出多于還是低于要價”。在這里,我們將房價分為兩類。
示例2:
(a)回歸 - 鑒于一個人的照片,我們必須根據(jù)給定的圖片來預測他們的年齡
(b)分類 - 鑒于腫瘤患者,我們必須預測腫瘤是惡性還是良性。
無監(jiān)督學習
概念:無監(jiān)督的學習使我們能夠很少或不知道我們的結果應該如何處理問題。 我們可以從數(shù)據(jù)中導出結構,我們不一定知道變量的影響。
我們可以通過基于數(shù)據(jù)中的變量之間的關系對數(shù)據(jù)進行聚類來導出該結構。
在無監(jiān)督學習的情況下,沒有基于預測結果的反饋。
例:
聚類:收集100萬個不同的基因,并找到一種自動將這些基因組合成不同變量(如壽命,位置,作用等)相似或相關的組。
非聚類:“雞尾酒會算法”,讓您在混亂的環(huán)境中找到結構。 (即,從雞尾酒會的聲音網(wǎng)格中識別個體聲音和音樂)。
知乎終極回答
是否有監(jiān)督(supervised),就看輸入數(shù)據(jù)是否有標簽(label)。輸入數(shù)據(jù)有標簽,則為有監(jiān)督學習,沒標簽則為無監(jiān)督學習。
首先看什么是學習(learning)?一個成語就可概括:舉一反三。
此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂解題方法,因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似:我們能不能利用一些訓練數(shù)據(jù)(已經(jīng)做過的題),使機器能夠利用它們(解題方法)分析未知數(shù)據(jù)(高考的題目)?
最簡單也最普遍的一類機器學習算法就是分類(classification)。對于分類,輸入的訓練數(shù)據(jù)有特征(feature),有標簽(label)。所謂的學習,其本質(zhì)就是找到特征和標簽間的關系(mapping)。這樣當有特征而無標簽的未知數(shù)據(jù)輸入時,我們就可以通過已有的關系得到未知數(shù)據(jù)標簽。
在上述的分類過程中,如果所有訓練數(shù)據(jù)都有標簽,則為有監(jiān)督學習(supervised learning)。如果數(shù)據(jù)沒有標簽,顯然就是無監(jiān)督學習(unsupervised learning)了,也即聚類(clustering)。
目前分類算法的效果還是不錯的,但相對來講,聚類算法就有些慘不忍睹了。確實,無監(jiān)督學習本身的特點使其難以得到如分類一樣近乎完美的結果。這也正如我們在高中做題,答案(標簽)是非常重要的,假設兩個完全相同的人進入高中,一個正常學習,另一人做的所有題目都沒有答案,那么想必第一個人高考會發(fā)揮更好,第二個人會發(fā)瘋。
這時各位可能要問,既然分類如此之好,聚類如此之不靠譜,那為何我們還可以容忍聚類的存在?因為在實際應用中,標簽的獲取常常需要極大的人工工作量,有時甚至非常困難。例如在自然語言處理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句話的標簽……
這時有人可能會想,難道有監(jiān)督學習和無監(jiān)督學習就是非黑即白的關系嗎?有沒有灰呢?Good idea。灰是存在的。二者的中間帶就是半監(jiān)督學習(semi-supervised learning)。對于半監(jiān)督學習,其訓練數(shù)據(jù)的一部分是有標簽的,另一部分沒有標簽,而沒標簽數(shù)據(jù)的數(shù)量常常極大于有標簽數(shù)據(jù)數(shù)量(這也是符合現(xiàn)實情況的)。隱藏在半監(jiān)督學習下的基本規(guī)律在于:數(shù)據(jù)的分布必然不是完全隨機的,通過一些有標簽數(shù)據(jù)的局部特征,以及更多沒標簽數(shù)據(jù)的整體分布,就可以得到可以接受甚至是非常好的分類結果。(此處大量忽略細節(jié))
- 因此,learning家族的整體構造是這樣的:
- 有監(jiān)督學習(分類,回歸)
- ?
- 半監(jiān)督學習(分類,回歸),transductive learning(分類,回歸)
- ?
- 半監(jiān)督聚類(有標簽數(shù)據(jù)的標簽不是確定的,類似于:肯定不是xxx,很可能是yyy)
- ?
- 無監(jiān)督學習(聚類)