線性回歸
線性回歸是基礎(chǔ)的算法之一,從人類科學(xué)的進(jìn)展上可以得到當(dāng)代人類只解決線性問(wèn)題就能解決人類生活中的相當(dāng)一部分基礎(chǔ)問(wèn)題,這標(biāo)志著與上個(gè)世紀(jì)的生活徹底的分割,帶來(lái)了新一代的進(jìn)化。比如在物理上面運(yùn)用線性微分方程的解就可以實(shí)現(xiàn)對(duì)物體的控制,使其達(dá)到不可思議的精確程度。
在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域,這個(gè)學(xué)科主要解決在特征不完全一致,或者建立特征需要巨大規(guī)模的人類簡(jiǎn)單操作,通過(guò)訓(xùn)練機(jī)器我們可以讓計(jì)算機(jī)代替這部分工作,從而帶來(lái)生產(chǎn)力的提高,模型是至關(guān)重要的,線性模型是去除次要關(guān)聯(lián),提取主要趨勢(shì)的一種方式,它無(wú)法精確的預(yù)測(cè)下一次坐標(biāo)出現(xiàn)的位置,但是卻可以給出這個(gè)點(diǎn)出現(xiàn)概率的期望位置,一元線性線性回歸是最簡(jiǎn)單的方式,在此基礎(chǔ)上是多元線性,涉及的因素更多,而且引入了更多的評(píng)價(jià)指標(biāo)用于評(píng)估模型與實(shí)際情況的偏差。

通過(guò)給一元模型x和y的數(shù)據(jù)集,來(lái)求得系數(shù)b0和b1.在一些不是精確需求的領(lǐng)域可以通過(guò)一元回歸得到下一步分析方向,或者驗(yàn)證假設(shè)的對(duì)應(yīng)關(guān)系。
2.logistic回歸
該方法是二分類方法的首選,與線性回歸不同,logistic通過(guò)輸出函數(shù)(非線性函數(shù))變換得到
3.決策樹(shù)
決策樹(shù)是一種關(guān)鍵的機(jī)器學(xué)習(xí)算法,決策樹(shù)是一個(gè)二叉樹(shù),類比等同于數(shù)據(jù)結(jié)構(gòu)中的二叉樹(shù),每個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量(x)和一個(gè)基于該變量的分岔點(diǎn),它的葉子節(jié)點(diǎn)包含一個(gè)作出預(yù)測(cè)的輸出變量,預(yù)測(cè)結(jié)果通過(guò)在樹(shù)的各個(gè)分叉路徑上游走,直到到達(dá)一個(gè)葉子節(jié)點(diǎn)并輸出該葉子節(jié)點(diǎn)的類別值得出,在大量問(wèn)題中往往比較準(zhǔn)確,學(xué)習(xí)速度也比較快。

4.樸素貝葉斯
樸素貝葉斯也許是人類大腦的運(yùn)作方式,這種模型簡(jiǎn)單而強(qiáng)大。模型由兩類可直接從訓(xùn)練數(shù)據(jù)集中計(jì)算出來(lái)的概率組成:
- 數(shù)據(jù)屬于每一類的概率
-
給定x值,數(shù)據(jù)從屬于每個(gè)類的條件概率。
當(dāng)數(shù)據(jù)是自然實(shí)數(shù)時(shí),假設(shè)數(shù)據(jù)符合高斯分布,估計(jì)概率很容易。
貝葉斯定理之所以被稱為樸素,是因?yàn)檫@個(gè)模型假設(shè)每個(gè)輸入變量相互之間是獨(dú)立的,屬于古典概率,雖然假設(shè)并不實(shí)際,但是具體應(yīng)用中效果比較良好。
樸素貝葉斯
5 k最近鄰算法(knn)
k最鄰算法非常簡(jiǎn)單有效,模型的預(yù)測(cè)是通過(guò)在整個(gè)訓(xùn)練集合上搜索與該數(shù)據(jù)點(diǎn)最相似的k個(gè)實(shí)例并總結(jié)k個(gè)實(shí)例的輸出變量而得出。
在回歸問(wèn)題上,輸出的是變量均值,分類問(wèn)題輸出可能是結(jié)果中的眾數(shù)。
這個(gè)栗子其實(shí)很好理解,本質(zhì)上是有限度的控制變量,通過(guò)給出輸入變量的近似值來(lái)間接判斷是否通過(guò)模型后產(chǎn)生符合客觀情況的現(xiàn)象,這種訓(xùn)練可以逐漸探查出變化的邊界,或者說(shuō)是同類數(shù)據(jù)的分界線。
這種訓(xùn)練的關(guān)鍵在于如何判斷輸入數(shù)據(jù)之間的相似程度。缺點(diǎn)是需要訓(xùn)練和存儲(chǔ)全部數(shù)據(jù)集
6.支持向量機(jī) (svm)
svm是目前最流行的機(jī)器學(xué)習(xí)算法之一,超平面是一條對(duì)輸入變量空間進(jìn)行劃分的「直線」。支持向量機(jī)會(huì)選出一個(gè)將輸入變量空間中的點(diǎn)按類(類 0 或類 1)進(jìn)行最佳分割的超平面。在二維空間中,你可以把他想象成一條直線,假設(shè)所有輸入點(diǎn)都可以被這條直線完全地劃分開(kāi)來(lái)。SVM 學(xué)習(xí)算法旨在尋找最終通過(guò)超平面得到最佳類別分割的系數(shù)。超平面與最近數(shù)據(jù)點(diǎn)之間的距離叫作間隔(margin)。能夠?qū)蓚€(gè)類分開(kāi)的最佳超平面是具有最大間隔的直線。只有這些點(diǎn)與超平面的定義和分類器的構(gòu)建有關(guān),這些點(diǎn)叫作支持向量,它們支持或定義超平面。在實(shí)際應(yīng)用中,人們采用一種優(yōu)化算法來(lái)尋找使間隔最大化的系數(shù)值。

支持向量機(jī)可能是目前可以直接使用的最強(qiáng)大的分類器之一,值得你在自己的數(shù)據(jù)集上試一試。
7.隨機(jī)森林隨機(jī)森林是最流行也最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一,它是一種集成機(jī)器學(xué)習(xí)算法。
自助法是一種從數(shù)據(jù)樣本中估計(jì)某個(gè)量(例如平均值)的強(qiáng)大統(tǒng)計(jì)學(xué)方法。你需要在數(shù)據(jù)中取出大量的樣本,計(jì)算均值,然后對(duì)每次取樣計(jì)算出的均值再取平均,從而得到對(duì)所有數(shù)據(jù)的真實(shí)均值更好的估計(jì)。
Bagging 使用了相同的方法。但是最常見(jiàn)的做法是使用決策樹(shù),而不是對(duì)整個(gè)統(tǒng)計(jì)模型進(jìn)行估計(jì)。Bagging 會(huì)在訓(xùn)練數(shù)據(jù)中取多個(gè)樣本,然后為每個(gè)數(shù)據(jù)樣本構(gòu)建模型。當(dāng)你需要對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),每個(gè)模型都會(huì)產(chǎn)生一個(gè)預(yù)測(cè)結(jié)果,Bagging 會(huì)對(duì)所有模型的預(yù)測(cè)結(jié)果取平均,以便更好地估計(jì)真實(shí)的輸出值。
隨機(jī)森林
隨機(jī)森林是這種方法的改進(jìn),它會(huì)創(chuàng)建決策樹(shù),這樣就不用選擇最優(yōu)分割點(diǎn),而是通過(guò)引入隨機(jī)性來(lái)進(jìn)行次優(yōu)分割。
因此,為每個(gè)數(shù)據(jù)樣本創(chuàng)建的模型比在其它情況下創(chuàng)建的模型更加獨(dú)特,但是這種獨(dú)特的方式仍能保證較高的準(zhǔn)確率。結(jié)合它們的預(yù)測(cè)結(jié)果可以更好地估計(jì)真實(shí)的輸出值。
如果你使用具有高方差的算法(例如決策樹(shù))獲得了良好的結(jié)果,那么你通??梢酝ㄟ^(guò)對(duì)該算法執(zhí)行 Bagging 獲得更好的結(jié)果。
