
現(xiàn)在機(jī)器學(xué)習(xí)是十分火爆,這也帶起了 Python 的潮流,這篇文章將簡(jiǎn)要概括機(jī)器學(xué)習(xí)里的一些重要概念,作為機(jī)器學(xué)習(xí)的入門博文。
問題類型
機(jī)器學(xué)習(xí)不是說(shuō)學(xué)習(xí)就學(xué)習(xí)的,它的出現(xiàn)是為了解決一些問題的,而這些問題一般不能通過(guò)直接編程去解決如計(jì)算 999 * 999 是多少。這些問題需要數(shù)學(xué)里的機(jī)器重復(fù)做一些事來(lái)發(fā)現(xiàn)問題中的規(guī)律,并利用這個(gè)規(guī)律來(lái)到達(dá)某個(gè)效果。如下圍棋,為了可以成為高手,人類可能要下成千上萬(wàn)盤棋才能總結(jié)出規(guī)律,現(xiàn)在有計(jì)算機(jī),它可以幫我們下棋去總結(jié)規(guī)律,這就是機(jī)器學(xué)習(xí)。
常見問題類型如下。
監(jiān)督學(xué)習(xí)
給你數(shù)據(jù)集,數(shù)據(jù)集里輸入 x 和輸出 y,然后找一個(gè)機(jī)器學(xué)習(xí)算法去訓(xùn)練出一個(gè)模型,這個(gè)模型就可以幫我們?cè)诮o定 x 值后去預(yù)測(cè) y 值。
監(jiān)督學(xué)習(xí)里還包含回歸問題和分類問題,回歸問題一般是有連續(xù)性的,如去預(yù)測(cè) 300 天后的銷售額。分類問題一般是離散的,如判斷這封郵件是否是垃圾郵件。
無(wú)監(jiān)督學(xué)習(xí)
給你數(shù)據(jù)集,數(shù)據(jù)集里只有輸入 x 值,然后找一個(gè)機(jī)器學(xué)習(xí)算法去訓(xùn)練一個(gè)模型,這個(gè)模型就首先會(huì)尋找 x 值中蘊(yùn)含的規(guī)律,并將這些規(guī)律分類成一些 y 值 ,然后在給定 x 值后去預(yù)測(cè)對(duì)應(yīng) y 值。
半監(jiān)督學(xué)習(xí)
這種學(xué)習(xí)方法就是上面兩種的結(jié)合,給你數(shù)據(jù)集,里面有輸入值 x 和 輸出值 y,不同的是有些 x 值沒有對(duì)應(yīng)的 y 值,然后還是和上面一樣,找個(gè)算法,造個(gè)模型,對(duì)給定 x 值去預(yù)測(cè) y 值,當(dāng)然這個(gè) y 值有可能是一個(gè)新類。
下面先從監(jiān)督學(xué)習(xí)開始說(shuō),這篇文章是入門文章,所以只是提一些概念。
圖解監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)的“流程圖”如下所示。

其中 Training Data 就是給定的數(shù)據(jù)集, Learning Algorithm 是我們找的一個(gè)機(jī)器學(xué)習(xí)算法,Program (Learner) 一般是我們寫的預(yù)測(cè)給定值的程序。Score Performance 一般是指損失函數(shù),用于判斷預(yù)測(cè)效果。
一些讓人頭大的字母
| 變量 | 含義 |
|---|---|
| x | 特征值,我的理解是輸入?yún)?shù) |
| y | x 對(duì)應(yīng)的 y 值 |
| 預(yù)測(cè)值 | |
| 機(jī)器學(xué)習(xí)算法里的參數(shù),注意:這個(gè) |
出錯(cuò)率
分析出錯(cuò)率可以幫我們選出更優(yōu)的機(jī)器學(xué)習(xí)算法以及其對(duì)應(yīng)的參數(shù),而出錯(cuò)率和我們高中學(xué)的方差有點(diǎn)像,嗯...感覺就是一樣。

MSE 表示 Measuring Error,m 表示有多少個(gè)數(shù)據(jù)。這里注意 指的是用
算出來(lái)的
,而不是
。
回歸與分類
