-
什么是機器學(xué)習(xí)
基于以往的經(jīng)驗和判斷,使用統(tǒng)計學(xué)方法和原理,進行統(tǒng)計建模,再用模型預(yù)測未來的一系列行為的過程。- 以往經(jīng)驗和判斷:數(shù)據(jù)集
- 統(tǒng)計建模
- 針對指定的行為進行預(yù)測
KNN算法
鄰近算法,或者說K最近鄰(kNN,k-NearestNeighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。
kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時,只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。決策樹
Information Entropy
信息熵
不確定性,信息具有不確定性
Information Gain
信息增益
如果有一個特征的Info Entropy為0,就說明很確定。那么在給定總entropy時gain最大。發(fā)過來因為很確定,所以就用這個特征來劃分。
決策樹有多個維度可以組織,如何選擇決策維度(樹的根節(jié)點)呢?
機器學(xué)習(xí)的三個關(guān)鍵決定是否適合使用機器學(xué)習(xí)
- 符合一定的模式(pattern)
- 不易編程實現(xiàn)
- 有大量資料(樣本)