【豆子的學(xué)習(xí)】-機(jī)器學(xué)習(xí)篇一
最近開始學(xué)習(xí)機(jī)器學(xué)習(xí),就寫寫東西來記錄一下自己的學(xué)習(xí)路線吧。
首先什么是機(jī)器學(xué)習(xí)?
“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E” ? ? ? ? ? ? ? ? ? ? ? ? ? ?——Tom M. Mitchell
Tom M. Mitchell在1997年定義機(jī)器學(xué)習(xí),如果一個(gè)計(jì)算機(jī)程序在某類任務(wù)T上,以P衡量的性能隨著經(jīng)驗(yàn)E而完善,那么這個(gè)計(jì)算機(jī)程序從經(jīng)驗(yàn)E學(xué)習(xí)。
機(jī)器學(xué)習(xí)的理論涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、計(jì)算復(fù)雜性理論等多門學(xué)科,核心的要素是數(shù)據(jù)、算法和模型,主要任務(wù)是通過算法的設(shè)計(jì),使機(jī)器能夠模仿人類的學(xué)習(xí),從數(shù)據(jù)中獲得知識(shí)經(jīng)驗(yàn),并利用它們來預(yù)測(cè)未知預(yù)測(cè)。
機(jī)器學(xué)習(xí)分類
機(jī)器學(xué)習(xí)主要分為以下四類:
1.監(jiān)督學(xué)習(xí):從有標(biāo)記的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一個(gè)模型,然后根據(jù)這個(gè)模型對(duì)未知樣本進(jìn)行預(yù)測(cè)。
2.無監(jiān)督學(xué)習(xí):輸入的樣本不需要標(biāo)記,自動(dòng)從樣本中學(xué)習(xí)特征實(shí)現(xiàn)預(yù)測(cè)。
3.半監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)結(jié)合的一種學(xué)習(xí)方法。
4.強(qiáng)化學(xué)習(xí):通過觀察來學(xué)習(xí)做成什么樣的動(dòng)作。每個(gè)動(dòng)作都會(huì)對(duì)環(huán)境有影響,在根據(jù)觀察到的環(huán)境的反饋來做出判斷。
機(jī)器學(xué)習(xí)主要任務(wù)
根據(jù)機(jī)器學(xué)習(xí)的任務(wù)來分析,主要可以分為回歸、分類、聚類三種任務(wù)。
1.分類:
分類算法是應(yīng)用規(guī)則對(duì)記錄進(jìn)行目標(biāo)映射,將其劃分到不同的分類中去,分為兩級(jí)分類和多級(jí)分類。分類使用監(jiān)督學(xué)習(xí)的算法,常見的算法有:
Logistic回歸和多項(xiàng)回歸
神經(jīng)網(wǎng)絡(luò)
決策樹
SVM(支持向量機(jī))
貝葉斯分類器(例如樸素貝葉斯)
最近鄰方法(例如,k-NN或k-Nearest Neighbors)
2.回歸
回歸分析是一種研究自變量和因變量之間關(guān)系的預(yù)測(cè)模型,用于分析當(dāng)自變量發(fā)生變化時(shí)因變量的變化值,要求自變量相互獨(dú)立。回歸也都使用監(jiān)督學(xué)習(xí)的算法,有:
線性回歸
局部加權(quán)回歸
嶺回歸
Lasso回歸
CART回歸樹
3.聚類
聚類則是基于無監(jiān)督學(xué)習(xí)的分析模型,不需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)記,按照數(shù)據(jù)的特征進(jìn)行聚集從而形成簇群,實(shí)現(xiàn)數(shù)據(jù)的分離。聚類算法可以分為基于層次的聚類,基于劃分的聚類,基于密度的聚類等等。
接下來會(huì)逐步整理一些機(jī)器學(xué)習(xí)中的算法。
參考書籍:《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、西瓜書等