機(jī)器學(xué)習(xí)篇(1)——基礎(chǔ)入門簡介

前言:
以下是我在自己理解的基礎(chǔ)上做的總結(jié),介紹了機(jī)器學(xué)習(xí)的定義以及評估算法的幾個(gè)概念。

  • 定義

  • 機(jī)器學(xué)習(xí)是一門從數(shù)據(jù)中研究算法的科學(xué)學(xué)科。是根據(jù)已有的數(shù)據(jù),進(jìn)行算法選擇,并基于算法和數(shù)據(jù)構(gòu)建模型,最終對未來進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)是一類算法的總稱,這些算法企圖從大量歷史數(shù)據(jù)中挖掘出其中隱含的規(guī)律,并用于預(yù)測或者分類,更具體的說,機(jī)器學(xué)習(xí)可以看作是尋找一個(gè)函數(shù),輸入是樣本數(shù)據(jù),輸出是期望的結(jié)果,只是這個(gè)函數(shù)過于復(fù)雜,以至于不太方便形式化表達(dá)。需要注意的是,機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)到的函數(shù)很好地適用于“新樣本”,而不僅僅是在訓(xùn)練樣本上表現(xiàn)很好。學(xué)到的函數(shù)適用于新樣本的能力,稱為泛化(Generalization)能力。
    1.數(shù)據(jù)中研究算法
    可以從人的學(xué)習(xí)來理解機(jī)器學(xué)習(xí),比如,人通過西瓜的顏色,響聲,根蒂來挑選西瓜,也就是說人通過經(jīng)驗(yàn)來對新的情況作出預(yù)測。而計(jì)算機(jī)中,“經(jīng)驗(yàn)”是以“數(shù)據(jù)”的形式的存在,從數(shù)據(jù)中產(chǎn)生模型算法也叫學(xué)習(xí)算法,對新的情況進(jìn)行預(yù)測。如下圖:
    image.png

    2.機(jī)器學(xué)習(xí)分類
  • 有監(jiān)督學(xué)習(xí):
    • 預(yù)測值是離散值,如根據(jù)瓜的成色(特征值),判斷出是“好瓜” 或者是“壞瓜”(目標(biāo)屬性),這種學(xué)習(xí)任務(wù)就是“分類”。
    • 預(yù)測值是連續(xù)值,比如根據(jù)瓜的相貌,判斷出這個(gè)西瓜值多少錢。這種學(xué)習(xí)任務(wù)是連續(xù)的,就會用到“回歸”問題。
  • 無監(jiān)督學(xué)習(xí):
    如果沒有給出目標(biāo)屬性,那怎么辦呢?我們可以對樣本進(jìn)行“聚類”處理,簡單的來講,就是根據(jù)把具有某些相同特征的樣本劃分到一起直接進(jìn)行分類。這里提到的聚類將會在以后的章節(jié)有介紹。

3.關(guān)于模型
也就是機(jī)器學(xué)習(xí)算法,從數(shù)據(jù)中獲得一個(gè)假設(shè)的函數(shù)g,使其非常接近目標(biāo)函數(shù)f的效果。
算法(T):根據(jù)業(yè)務(wù)需要和數(shù)據(jù)特征選擇的相關(guān)算法, 也就是一個(gè)數(shù)學(xué)公式。
模型(E):基于數(shù)據(jù)和算法構(gòu)建出來的模型,模型構(gòu)建的時(shí)候要先把歷史數(shù)據(jù)分為“訓(xùn)練集”和“測試集”用于訓(xùn)練算法。

image.png

4.機(jī)器學(xué)習(xí)的過程


image.png

5.如何評估你得到的算法的好壞?

  • 魯棒性:也就是健壯性、穩(wěn)健性、強(qiáng)健性,是系統(tǒng)的健壯性;但缺點(diǎn)是當(dāng)存在異常數(shù)據(jù)的 時(shí)候,算法也會擬合數(shù)據(jù)

  • 模型訓(xùn)練中可能出現(xiàn)的問題:
    1> 欠擬合:由于學(xué)習(xí)不足,還得進(jìn)行繼續(xù)學(xué)習(xí)。
    解決方法:添加特征值,提取更多的特征
    2> 過擬合:學(xué)習(xí)的太徹底,使得模型在訓(xùn)練數(shù)據(jù)中的效果非常好,然而在實(shí)際的數(shù)據(jù)中反而不太好。
    解決方法:1.正則化方法 2.提前終止 3.逐層歸一化
    不過,數(shù)據(jù)訓(xùn)練過程中始終是最重要的,往往都是更多的數(shù)據(jù)勝過一個(gè)更好的模型。

  • 流程

image.png
  • 數(shù)據(jù)收集
    很關(guān)鍵,傳統(tǒng)行業(yè)轉(zhuǎn)向機(jī)器學(xué)習(xí)的第一步
  • 數(shù)據(jù)清理
    大部分的機(jī)器學(xué)習(xí)模型所處理的都是特征,特征通常是輸入變量所對應(yīng)的可用于模型的數(shù)值
    數(shù)據(jù)過濾
    處理數(shù)據(jù)缺失
    處理可能的異常、錯(cuò)誤或者異常值
    合并多個(gè)數(shù)據(jù)源數(shù)據(jù)
    數(shù)據(jù)匯總
  • 模型訓(xùn)練
  • 模型測試
  • 模型選擇:對特定任務(wù)最優(yōu)建模方法的選擇
    模型的測試一般以下幾個(gè)方面來進(jìn)行比較,分別是準(zhǔn)確率/召回率/精準(zhǔn)率/F值
    1 準(zhǔn)確率(Accuracy)=提取出的正確樣本數(shù)/總樣本數(shù)
    2 召回率(Recall)=正確的正例樣本數(shù)/樣本中的正例樣本數(shù)——覆蓋率
    3 精準(zhǔn)率(Precision)=正確的正例樣本數(shù)/預(yù)測為正例的樣本數(shù)
    4 F值=PrecisionRecall2 / (Precision+Recall) (即F值為正確率和召回率的調(diào)和平均值)
    5 ROC曲線
    image.png

    注:AUC表示ROC的面積,AUC的值越大表示模型越好
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容