機器學(xué)習(xí)入門

  • 什么是機器學(xué)習(xí)
    基于以往的經(jīng)驗和判斷,使用統(tǒng)計學(xué)方法和原理,進行統(tǒng)計建模,再用模型預(yù)測未來的一系列行為的過程。

    • 以往經(jīng)驗和判斷:數(shù)據(jù)集
    • 統(tǒng)計建模
    • 針對指定的行為進行預(yù)測
  • KNN算法
    鄰近算法,或者說K最近鄰(kNN,k-NearestNeighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。
    kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時,只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。

  • 決策樹
    Information Entropy
    信息熵
    不確定性,信息具有不確定性

Information Gain
信息增益
如果有一個特征的Info Entropy為0,就說明很確定。那么在給定總entropy時gain最大。發(fā)過來因為很確定,所以就用這個特征來劃分。

決策樹有多個維度可以組織,如何選擇決策維度(樹的根節(jié)點)呢?

機器學(xué)習(xí)的三個關(guān)鍵決定是否適合使用機器學(xué)習(xí)

  1. 符合一定的模式(pattern)
  2. 不易編程實現(xiàn)
  3. 有大量資料(樣本)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容