使用python機(jī)器學(xué)習(xí)(五)-scikit-learn

解決機(jī)器學(xué)習(xí)問題,最困難的部分通常是找到合適的算法模型,不同的算法模型適合于不同類數(shù)據(jù)和不同的問題。
scikit-learn提供的主要功能就是主要關(guān)注數(shù)據(jù)建模,而非加載、操作、數(shù)據(jù)統(tǒng)計(jì), 這些任務(wù)有NumPy、Pandas就足夠了。

下圖為用戶的數(shù)據(jù)問題,提供嘗試選擇算法模型的指南。

image.png

原圖并有超鏈接介紹相關(guān)算法

scikit-learn 主要提供了以下功能:

  • 測(cè)試數(shù)據(jù)集,sklearn.datasets模塊提供了乳腺癌、kddcup 99、iris、加州房?jī)r(jià)等諸多開源的數(shù)據(jù)集
  • 降維(Dimensionality Reduction): 為了特征篩選、統(tǒng)計(jì)可視化來減少屬性的數(shù)量。
  • 特征提取(Feature extraction): 定義文件或者圖片中的屬性。
  • 特征篩選(Feature selection): 為了建立監(jiān)督學(xué)習(xí)模型而識(shí)別出有真實(shí)關(guān)系的屬性。
  • 按算法功能分類,分為監(jiān)督學(xué)習(xí):分類(classification)和回歸(regression),以及非監(jiān)督學(xué)習(xí):聚類(clustering)。sklearn提供了很全面的算法實(shí)現(xiàn),詳細(xì)算法清單http://scikit-learn.org/stabl...
  • 聚類(Clustring): 使用KMeans之類的算法,給未標(biāo)記的數(shù)據(jù)分類。
  • 交叉驗(yàn)證(Cross Validation): 評(píng)估監(jiān)督學(xué)習(xí)模型的性能。
  • 參數(shù)調(diào)優(yōu)(Parameter Tuning): 調(diào)整監(jiān)督學(xué)習(xí)模型的參數(shù)以獲得最大效果。
  • 流型計(jì)算(Manifold Learning): 統(tǒng)計(jì)和描繪多維度的數(shù)據(jù)

Scikit-learn進(jìn)行計(jì)算的主要步驟為:

  • 數(shù)據(jù)獲取、預(yù)處理。
  • 可選的降維過程。如果原始數(shù)據(jù)的維度比較大, 需要先找出真正跟預(yù)測(cè)目標(biāo)相關(guān)的屬性。
  • 學(xué)習(xí)以及預(yù)測(cè)的過程。
  • 反復(fù)學(xué)習(xí)的過程。通過增加樣本、調(diào)優(yōu)參數(shù)、更換算法等各種方式,提高預(yù)測(cè)的準(zhǔn)確率。

下一篇通過上面介紹的理論處理一個(gè)實(shí)際問題。

參考

Python機(jī)器學(xué)習(xí)工具:Scikit-Learn介紹與實(shí)踐
基于 Python 和 Scikit-Learn 的機(jī)器學(xué)習(xí)介紹

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容