?機(jī)器學(xué)習(xí)的定義是:在沒有明確設(shè)置的情況下,使計(jì)算機(jī)具有學(xué)習(xí)能力的領(lǐng)域。
一個適當(dāng)?shù)膶W(xué)習(xí)問題定義如下:計(jì)算機(jī)程序從經(jīng)驗(yàn)E中學(xué)習(xí),解決某一任務(wù)T進(jìn)行某一性能度量P,通過P測定在T上的表現(xiàn)因經(jīng)驗(yàn)E而提高。這個定義姑且稱之為ETP。
ETP對于一個跳棋游戲來說,經(jīng)驗(yàn)E就是程序與自己下幾萬次棋,任務(wù)T就是玩跳棋,性能度量P就是與新玩家玩跳棋時(shí)的勝利概率。
在郵件過濾垃圾郵件這個問題中,經(jīng)驗(yàn)E就是觀察用戶群手動定義(label email)某些(某類)郵件為垃圾郵件,任務(wù)T就是給郵件分類(classify email),性能度量P就是郵箱系統(tǒng)正確歸類郵件的概率(corrected classify)。也就是任務(wù)T在學(xué)習(xí)經(jīng)驗(yàn)E后,會提高P。
學(xué)習(xí)算法目前最常使用的兩類:監(jiān)督學(xué)習(xí)(Supervised learning)和無監(jiān)督學(xué)習(xí)(Unsupervised learning) 。其他主流的學(xué)習(xí)算法:強(qiáng)化學(xué)習(xí)(Reinforcement learning),推薦系統(tǒng)(recommender system)。
監(jiān)督學(xué)習(xí):可以由訓(xùn)練資料中學(xué)到或建立一個模式( learning model),并依此模式推測新的實(shí)例。訓(xùn)練資料是由輸入物件(通常是向量)和預(yù)期輸出所組成。函數(shù)的輸出可以是一個連續(xù)的值(稱為回歸分析),或是預(yù)測一個分類標(biāo)簽(稱作分類)。是指有目標(biāo)變量或預(yù)測目標(biāo)的機(jī)器學(xué)習(xí)方法。
(1)回歸問題
學(xué)習(xí)的結(jié)果是連續(xù)的。例子:買房子時(shí),如果已知房子大小和價(jià)格的數(shù)據(jù),據(jù)此我們可以建立一個二維平面圖,橫軸代表房子大小,縱軸代表每平價(jià)格,這樣我們可以通過回歸曲線來可以估算預(yù)測出其每平的價(jià)格(如圖回歸曲線也有很多種不同的方法,會得到不同的擬合度,該情況下二次函數(shù)曲線擬合效果就要優(yōu)于直線的擬合效果),這就是回歸問題的一個例子。

總結(jié):回歸問題是對于連續(xù)性數(shù)據(jù),從已有的數(shù)據(jù)分析中,來預(yù)測結(jié)果.
(2)分類問題
目標(biāo)變量是樣本所屬的類別,學(xué)習(xí)的結(jié)果是非連續(xù)的。例子:目前已有的數(shù)據(jù)是腫瘤的惡性和良性,惡性打叉,良性畫圈.通過一個橫軸即可描述該事件.同樣也可以二維建模,橫軸代表腫瘤大小,縱軸代表受測者年齡,當(dāng)在圖上給頂一個點(diǎn)時(shí),我們要預(yù)測的是該受測者的腫瘤是惡性還是良性.本質(zhì)上我們要找一條線,它能最大可能的分開良性腫瘤點(diǎn)和惡性腫瘤點(diǎn).

總結(jié):分類問題總可以劃分為若干類來解決,處理離散型數(shù)據(jù)。
非監(jiān)督學(xué)習(xí):在學(xué)習(xí)時(shí)并不知道其分類結(jié)果是否正確,亦即沒有受到監(jiān)督式增強(qiáng)(告訴它何種學(xué)習(xí)是正確的)。其特點(diǎn)是僅對此種網(wǎng)絡(luò)提供輸入范例,而它會自動從這些范例中找出其潛在類別規(guī)則。當(dāng)學(xué)習(xí)完畢并經(jīng)測試后,也可以將之應(yīng)用到新的案例上。直接對輸入數(shù)據(jù)集進(jìn)行建模,例如聚類。在無監(jiān)督學(xué)習(xí)中,所用的樣本是沒有標(biāo)簽的,你給算法大量的樣本數(shù)據(jù),要求他找出數(shù)據(jù)的類型結(jié)構(gòu)

無監(jiān)督學(xué)習(xí)的代表:聚類分析,假如給你一堆語音數(shù)據(jù),你并不知道這些數(shù)據(jù)之間的關(guān)系,有什么樣的聯(lián)系,經(jīng)過聚類分析后,可能會給你這樣的結(jié)果,這個模型給你將數(shù)據(jù)分為了兩類,一類是人的聲音、一類是樂器的聲音。