機(jī)器學(xué)習(xí)算法縱覽

線性回歸

線性回歸是基礎(chǔ)的算法之一,從人類科學(xué)的進(jìn)展上可以得到當(dāng)代人類只解決線性問(wèn)題就能解決人類生活中的相當(dāng)一部分基礎(chǔ)問(wèn)題,這標(biāo)志著與上個(gè)世紀(jì)的生活徹底的分割,帶來(lái)了新一代的進(jìn)化。比如在物理上面運(yùn)用線性微分方程的解就可以實(shí)現(xiàn)對(duì)物體的控制,使其達(dá)到不可思議的精確程度。
在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,這個(gè)學(xué)科主要解決在特征不完全一致,或者建立特征需要巨大規(guī)模的人類簡(jiǎn)單操作,通過(guò)訓(xùn)練機(jī)器我們可以讓計(jì)算機(jī)代替這部分工作,從而帶來(lái)生產(chǎn)力的提高,模型是至關(guān)重要的,線性模型是去除次要關(guān)聯(lián),提取主要趨勢(shì)的一種方式,它無(wú)法精確的預(yù)測(cè)下一次坐標(biāo)出現(xiàn)的位置,但是卻可以給出這個(gè)點(diǎn)出現(xiàn)概率的期望位置,一元線性線性回歸是最簡(jiǎn)單的方式,在此基礎(chǔ)上是多元線性,涉及的因素更多,而且引入了更多的評(píng)價(jià)指標(biāo)用于評(píng)估模型與實(shí)際情況的偏差。


一元回歸.jpg

通過(guò)給一元模型x和y的數(shù)據(jù)集,來(lái)求得系數(shù)b0和b1.在一些不是精確需求的領(lǐng)域可以通過(guò)一元回歸得到下一步分析方向,或者驗(yàn)證假設(shè)的對(duì)應(yīng)關(guān)系。

2.logistic回歸

該方法是二分類方法的首選,與線性回歸不同,logistic通過(guò)輸出函數(shù)(非線性函數(shù))變換得到

3.決策樹(shù)

決策樹(shù)是一種關(guān)鍵的機(jī)器學(xué)習(xí)算法,決策樹(shù)是一個(gè)二叉樹(shù),類比等同于數(shù)據(jù)結(jié)構(gòu)中的二叉樹(shù),每個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量(x)和一個(gè)基于該變量的分岔點(diǎn),它的葉子節(jié)點(diǎn)包含一個(gè)作出預(yù)測(cè)的輸出變量,預(yù)測(cè)結(jié)果通過(guò)在樹(shù)的各個(gè)分叉路徑上游走,直到到達(dá)一個(gè)葉子節(jié)點(diǎn)并輸出該葉子節(jié)點(diǎn)的類別值得出,在大量問(wèn)題中往往比較準(zhǔn)確,學(xué)習(xí)速度也比較快。


決策樹(shù)

4.樸素貝葉斯

樸素貝葉斯也許是人類大腦的運(yùn)作方式,這種模型簡(jiǎn)單而強(qiáng)大。模型由兩類可直接從訓(xùn)練數(shù)據(jù)集中計(jì)算出來(lái)的概率組成:

  1. 數(shù)據(jù)屬于每一類的概率
  2. 給定x值,數(shù)據(jù)從屬于每個(gè)類的條件概率。
    當(dāng)數(shù)據(jù)是自然實(shí)數(shù)時(shí),假設(shè)數(shù)據(jù)符合高斯分布,估計(jì)概率很容易。
    貝葉斯定理之所以被稱為樸素,是因?yàn)檫@個(gè)模型假設(shè)每個(gè)輸入變量相互之間是獨(dú)立的,屬于古典概率,雖然假設(shè)并不實(shí)際,但是具體應(yīng)用中效果比較良好。


    樸素貝葉斯

5 k最近鄰算法(knn)

k最鄰算法非常簡(jiǎn)單有效,模型的預(yù)測(cè)是通過(guò)在整個(gè)訓(xùn)練集合上搜索與該數(shù)據(jù)點(diǎn)最相似的k個(gè)實(shí)例并總結(jié)k個(gè)實(shí)例的輸出變量而得出。
在回歸問(wèn)題上,輸出的是變量均值,分類問(wèn)題輸出可能是結(jié)果中的眾數(shù)。
這個(gè)栗子其實(shí)很好理解,本質(zhì)上是有限度的控制變量,通過(guò)給出輸入變量的近似值來(lái)間接判斷是否通過(guò)模型后產(chǎn)生符合客觀情況的現(xiàn)象,這種訓(xùn)練可以逐漸探查出變化的邊界,或者說(shuō)是同類數(shù)據(jù)的分界線。
這種訓(xùn)練的關(guān)鍵在于如何判斷輸入數(shù)據(jù)之間的相似程度。缺點(diǎn)是需要訓(xùn)練和存儲(chǔ)全部數(shù)據(jù)集

6.支持向量機(jī) (svm)

svm是目前最流行的機(jī)器學(xué)習(xí)算法之一,超平面是一條對(duì)輸入變量空間進(jìn)行劃分的「直線」。支持向量機(jī)會(huì)選出一個(gè)將輸入變量空間中的點(diǎn)按類(類 0 或類 1)進(jìn)行最佳分割的超平面。在二維空間中,你可以把他想象成一條直線,假設(shè)所有輸入點(diǎn)都可以被這條直線完全地劃分開(kāi)來(lái)。SVM 學(xué)習(xí)算法旨在尋找最終通過(guò)超平面得到最佳類別分割的系數(shù)。超平面與最近數(shù)據(jù)點(diǎn)之間的距離叫作間隔(margin)。能夠?qū)蓚€(gè)類分開(kāi)的最佳超平面是具有最大間隔的直線。只有這些點(diǎn)與超平面的定義和分類器的構(gòu)建有關(guān),這些點(diǎn)叫作支持向量,它們支持或定義超平面。在實(shí)際應(yīng)用中,人們采用一種優(yōu)化算法來(lái)尋找使間隔最大化的系數(shù)值。


支持向量機(jī)

支持向量機(jī)可能是目前可以直接使用的最強(qiáng)大的分類器之一,值得你在自己的數(shù)據(jù)集上試一試。

7.隨機(jī)森林隨機(jī)森林是最流行也最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一,它是一種集成機(jī)器學(xué)習(xí)算法。

自助法是一種從數(shù)據(jù)樣本中估計(jì)某個(gè)量(例如平均值)的強(qiáng)大統(tǒng)計(jì)學(xué)方法。你需要在數(shù)據(jù)中取出大量的樣本,計(jì)算均值,然后對(duì)每次取樣計(jì)算出的均值再取平均,從而得到對(duì)所有數(shù)據(jù)的真實(shí)均值更好的估計(jì)。

Bagging 使用了相同的方法。但是最常見(jiàn)的做法是使用決策樹(shù),而不是對(duì)整個(gè)統(tǒng)計(jì)模型進(jìn)行估計(jì)。Bagging 會(huì)在訓(xùn)練數(shù)據(jù)中取多個(gè)樣本,然后為每個(gè)數(shù)據(jù)樣本構(gòu)建模型。當(dāng)你需要對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),每個(gè)模型都會(huì)產(chǎn)生一個(gè)預(yù)測(cè)結(jié)果,Bagging 會(huì)對(duì)所有模型的預(yù)測(cè)結(jié)果取平均,以便更好地估計(jì)真實(shí)的輸出值。

隨機(jī)森林

隨機(jī)森林是這種方法的改進(jìn),它會(huì)創(chuàng)建決策樹(shù),這樣就不用選擇最優(yōu)分割點(diǎn),而是通過(guò)引入隨機(jī)性來(lái)進(jìn)行次優(yōu)分割。

因此,為每個(gè)數(shù)據(jù)樣本創(chuàng)建的模型比在其它情況下創(chuàng)建的模型更加獨(dú)特,但是這種獨(dú)特的方式仍能保證較高的準(zhǔn)確率。結(jié)合它們的預(yù)測(cè)結(jié)果可以更好地估計(jì)真實(shí)的輸出值。

如果你使用具有高方差的算法(例如決策樹(shù))獲得了良好的結(jié)果,那么你通??梢酝ㄟ^(guò)對(duì)該算法執(zhí)行 Bagging 獲得更好的結(jié)果。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容