七種回歸

介紹

線性和邏輯回歸通常是人們在預(yù)測建模中學(xué)習(xí)的第一種算法。由于受歡迎程度,很多分析師甚至認(rèn)為他們是唯一的回歸形式。稍微涉及的人認(rèn)為他們是所有形式的回歸分析中最重要的。

事實(shí)是有無數(shù)形式的回歸,可以執(zhí)行。每種形式都有其自身的重要性和最適合使用的具體條件。在這篇文章中,我以簡單的方式解釋了最常用的7種形式的回歸。通過這篇文章,我也希望人們發(fā)現(xiàn)一個回歸廣度的想法,而不是對他們遇到的每個問題應(yīng)用線性/邏輯回歸,并希望他們能適應(yīng)!


目錄

什么是回歸分析?

為什么我們使用回歸分析?

回歸的類型是什么?

線性回歸

邏輯回歸

多項(xiàng)式回歸

逐步回歸

嶺回歸

拉索回歸

彈性網(wǎng)回歸

如何選擇正確的回歸模型?

什么是回歸分析?

回歸分析是一種預(yù)測建模技術(shù),它調(diào)查依賴(目標(biāo))和自變量(預(yù)測因子)之間的關(guān)系。該技術(shù)用于預(yù)測,時間序列建模和發(fā)現(xiàn)變量之間的因果關(guān)系。例如,駕駛員的皮疹駕駛與道路交通事故之間的關(guān)系最好通過回歸研究。

回歸分析是數(shù)據(jù)建模和分析的重要工具。在這里,我們將數(shù)據(jù)點(diǎn)的曲線/線擬合到數(shù)據(jù)點(diǎn)之間,使得數(shù)據(jù)點(diǎn)與曲線或線之間的距離之間的差異最小化。我將在下面的部分詳細(xì)解釋這一點(diǎn)。

為什么我們使用回歸分析?

如上所述,回歸分析估計兩個或多個變量之間的關(guān)系。讓我們通過一個簡單的例子了解這一點(diǎn):

假設(shè)你想根據(jù)當(dāng)前的經(jīng)濟(jì)狀況來估算一家公司的銷售增長。您有最近的公司數(shù)據(jù),表明銷售額的增長是經(jīng)濟(jì)增長的兩倍多。利用這種洞察力,我們可以根據(jù)當(dāng)前和過去的信息來預(yù)測公司未來的銷售情況。

使用回歸分析有多個好處。它們?nèi)缦拢?/p>

它表示因變量與自變量之間的重要關(guān)系

它表明多個獨(dú)立變量對因變量的影響強(qiáng)度。

回歸分析還使我們能夠比較不同尺度下測量的變量的影響,如價格變化的影響和促銷活動的數(shù)量。這些優(yōu)勢有助于市場研究人員/數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家消除和評估用于構(gòu)建預(yù)測模型的最佳變量集。

我們有多少種回歸技術(shù)?

有各種各樣的回歸技術(shù)可以做出預(yù)測。這些技術(shù)主要由三個指標(biāo)(獨(dú)立變量的數(shù)量,因變量的類型和回歸線的形狀)驅(qū)動。我們將在以下部分詳細(xì)討論它們。

對于創(chuàng)造性的,您甚至可以做出新的回歸,如果您覺得需要使用上述參數(shù)的組合,哪些人以前沒有使用過。但在您開始之前,讓我們了解最常用的回歸:

線性回歸

它是最廣為人知的建模技術(shù)之一。線性回歸通常是人們在學(xué)習(xí)預(yù)測模型時選擇的頭幾個主題。在這種技術(shù)中,因變量是連續(xù)的,獨(dú)立變量可以是連續(xù)的或離散的,回歸線的性質(zhì)是線性的。

線性回歸使用最佳擬合直線(也稱為回歸線)確定因變量(Y)與一個或多個獨(dú)立變量(X)之間的關(guān)系

它由等式Y = a + b * X + e表示,其中a是截距,b是線的斜率,e是誤差項(xiàng)。該方程可以用于基于給定的預(yù)測變量來預(yù)測目標(biāo)變量的值。

簡單線性回歸與多元線性回歸之間的差異在于,多元線性回歸具有(> 1)自變量,而簡單線性回歸只有1個獨(dú)立變量?,F(xiàn)在的問題是“我們?nèi)绾潍@得最佳配合線?”。

如何獲得最佳擬合線(a和b的值)?

這個任務(wù)可以通過最小二乘法輕松完成。它是用于擬合回歸線的最常用方法。它通過最小化從每個數(shù)據(jù)點(diǎn)到線的垂直偏差的平方和來計算觀測數(shù)據(jù)的最佳擬合線。因?yàn)槠钍堑谝黄椒降?,所以加上正值和?fù)值之間不會取消。


我們可以使用公制R平方來評估模型性能。要了解有關(guān)這些指標(biāo)的更多詳細(xì)信息,您可以閱讀:模型性能指標(biāo)第1部分,第2部分。

重點(diǎn):

獨(dú)立變量與因變量之間必須存在線性關(guān)系

多重回歸存在多重共線性,自相關(guān),異方差。

線性回歸對異常值非常敏感。它可以極大地影響回歸線,最終影響預(yù)測值。

多重共線性可以增加系數(shù)估計的方差,并使估計對模型的微小變化非常敏感。結(jié)果是系數(shù)估計不穩(wěn)定

在多個獨(dú)立變量的情況下,我們可以選擇最有意義的自變量進(jìn)行前向選擇反向消除逐步的方法。

邏輯回歸

Logistic回歸用于查找event = Success和event = Failure的概率。當(dāng)因變量為二進(jìn)制(0/1,True / False,Yes / No)時,我們應(yīng)該使用邏輯回歸。這里,Y的值在0?1之間,可以由下式表示。

odds = p /(1-p)=事件發(fā)生概率/事件發(fā)生概率ln(odds)= ln(p /(1-p))logit(p)= ln(p /(1-p))= b0 + b1X1 + b2X2 + b3X3 ... + bkXk

以上,p是存在感興趣特征的概率。你在這里應(yīng)該問的一個問題是“為什么我們使用登錄方程?”。

由于我們在這里使用二項(xiàng)分布(因變量),我們需要選擇最適合這種分布的鏈接函數(shù)。而且,它是logit函數(shù)。在上面的等式中,選擇參數(shù)以最大化觀察樣本值的可能性,而不是最小化平方誤差的總和(如在普通回歸中)。

重點(diǎn):

廣泛應(yīng)用于分類問題

邏輯回歸不需要依賴變量和自變量之間的線性關(guān)系。它可以處理各種類型的關(guān)系,因?yàn)樗鼘⒎蔷€性對數(shù)變換應(yīng)用于預(yù)測的優(yōu)勢比

為了避免過度擬合和擬合,我們應(yīng)該包括所有重要的變量。確保這種做法的一個好辦法是使用逐步的方法來估計邏輯回歸

它需要較大的樣本量,因?yàn)樽钚∷迫还烙嬙诘蜆颖玖糠矫姹绕胀ㄗ钚《朔ú惶珡?qiáng)大

自變量不應(yīng)相互關(guān)聯(lián),即無共線性。然而,我們有選擇在分析和模型中包括分類變量的交互效應(yīng)。

如果因變量的值是序數(shù),則稱為有序邏輯回歸

如果因變量是多類,則稱為多項(xiàng)Logistic回歸。

多項(xiàng)式回歸

如果自變量的冪大于1,則回歸方程為多項(xiàng)式回歸方程。下面的公式表示多項(xiàng)式方程:

Y = A + B * X ^ 2

在這種回歸技術(shù)中,最佳擬合線不是直線。這是一個適合數(shù)據(jù)點(diǎn)的曲線。

重點(diǎn):

雖然可能會有一種誘惑來適應(yīng)更高等級的多項(xiàng)式來獲得較低的誤差,但這可能會導(dǎo)致過度擬合。始終繪制關(guān)系,以確定合適性并集中精力確保曲線符合問題的本質(zhì)。這是一個例子,說明繪圖如何幫助:

特別注意曲線向前,看看這些形狀和趨勢是否有意義。較高的多項(xiàng)式最終可能會產(chǎn)生外推的結(jié)果。

逐步回歸

當(dāng)我們處理多個獨(dú)立變量時,使用這種回歸形式。在這種技術(shù)中,自主變量的選擇是在自動過程的幫助下進(jìn)行的,而不需要人為干預(yù)。

通過觀察諸如R平方,t統(tǒng)計和AIC度量之類的統(tǒng)計值來識別重要變量,可以實(shí)現(xiàn)這一特征。逐步回歸基本上適合回歸模型,通過根據(jù)指定的標(biāo)準(zhǔn)一次添加/刪除共變量。一些最常用的逐步回歸方法如下:

標(biāo)準(zhǔn)逐步回歸有兩件事情。它根據(jù)每個步驟的需要添加和刪除預(yù)測變量。

前向選擇從模型中最重要的預(yù)測變量開始,并為每個步驟添加變量。

反向消除從模型中的所有預(yù)測變量開始,并刪除每個步驟的最不重要的變量。

這種建模技術(shù)的目的是以最小數(shù)量的預(yù)測變量最大化預(yù)測能力。它是處理數(shù)據(jù)集較高維數(shù)的方法之一。

嶺回歸

Ridge回歸是當(dāng)數(shù)據(jù)遭受多重共線性(獨(dú)立變量高度相關(guān))時使用的技術(shù)。在多重共線性方面,盡管最小二乘估計(OLS)是無偏的,但它們的方差大,將觀測值偏離真實(shí)值。通過向回歸估計增加一定程度的偏差,脊回歸減少了標(biāo)準(zhǔn)誤差。

以上,我們看到了線性回歸方程。記得?它可以表示為:

y = a + b * x

該方程也有一個錯誤項(xiàng)。完整的方程式成為:

y = a + b * x + e(誤差項(xiàng)),[誤差項(xiàng)是校正觀測值和預(yù)測值之間的預(yù)測誤差所需的值]

=> y = a + y = a + b1x1 + b2x2 + .... + e,用于多個獨(dú)立變量。

在線性方程中,預(yù)測誤差可以分解為兩個子分量。首先是由于偏差,第二是由于差異。由于這兩個或兩個組件中的任一個可能會發(fā)生預(yù)測錯誤。在這里,我們將討論由于方差導(dǎo)致的錯誤。

嶺回歸通過收縮參數(shù)λ(λ)解決了多重共線性問題??聪旅娴牡仁健?/p>

在這個方程式中,我們有兩個組件。第一個是最小平方,另一個是β2(β平方)的和的λ,其中β是系數(shù)。這被添加到最小二乘法,以縮小參數(shù)以具有非常低的方差。

重點(diǎn):

該回歸的假設(shè)與最小二乘回歸相同,但不包括正態(tài)性

它縮小了系數(shù)的值,但沒有達(dá)到零,這表明沒有特征選擇特征

這是一個正則化方法,并使用l2正則化

拉索回歸

與Ridge回歸類似,Lasso(最小絕對收縮率和選擇算子)也懲罰了回歸系數(shù)的絕對大小。此外,它能夠減少線性回歸模型的變異性和提高準(zhǔn)確性。看下面的等式:


拉索回歸與脊回歸的不同之處在于它使用懲罰函數(shù)中的絕對值而不是正方形。這導(dǎo)致懲罰(或等價地約束估計的絕對值的總和),這導(dǎo)致一些參數(shù)估計結(jié)果恰好為零。更大的罰款適用,進(jìn)一步估計收縮到絕對零。這導(dǎo)致給定的n個變量的變量選擇。

重點(diǎn):

該回歸的假設(shè)與最小二乘回歸相同,但不包括正態(tài)性

它將系數(shù)縮小到零(完全為零),這肯定有助于特征選擇

這是一個正則化方法,并使用l1正則化

如果一組預(yù)測因子高度相關(guān),套索只選擇其中一個,并將其他人縮小到零

彈性網(wǎng)回歸

ElasticNet是Lasso和Ridge回歸技術(shù)的混合體。它被訓(xùn)練用L1和L2作為前調(diào)整裝置。當(dāng)有多個相關(guān)的特征時,彈性網(wǎng)是有用的。拉索有可能隨機(jī)選擇其中之一,而彈性網(wǎng)則很可能選擇兩者。


拉索和里奇之間的一個切實(shí)的優(yōu)勢是,它允許Elastic-Net繼承Ridge在旋轉(zhuǎn)下的一些穩(wěn)定性。

重點(diǎn):

在高度相關(guān)的變量的情況下,它鼓勵群體效應(yīng)

所選變量的數(shù)量沒有限制

它可能遭受雙收縮

除了這七種最常用的回歸技術(shù)之外,您還可以查看其他模型,如貝葉斯,生態(tài)魯棒回歸。

如何選擇正確的回歸模型?

生活通常很簡單,當(dāng)你只知道一兩種技巧。我知道的一個培訓(xùn)機(jī)構(gòu)告訴他們的學(xué)生 - 如果結(jié)果是連續(xù)的 - 應(yīng)用線性回歸。如果是二進(jìn)制 - 使用邏輯回歸!然而,我們處理的可用選項(xiàng)數(shù)量越多,選擇合適的選項(xiàng)就越困難?;貧w模型也發(fā)生了類似的情況。

在多種類型的回歸模型中,重要的是選擇基于獨(dú)立和依賴變量的類型,數(shù)據(jù)中的維度和數(shù)據(jù)的其他基本特征的最適合的技術(shù)。以下是您應(yīng)該選擇正確回歸模型的關(guān)鍵因素:

數(shù)據(jù)探索是構(gòu)建預(yù)測模型的必然部分。在選擇正確的模型之前,您應(yīng)該首先確定變量的關(guān)系和影響

為了比較不同模型的擬合優(yōu)度,我們可以分析不同的指標(biāo),如參數(shù)的統(tǒng)計學(xué)顯著性,R平方,調(diào)整r平方,AIC,BIC和誤差項(xiàng)。另一個是Mallow的Cp標(biāo)準(zhǔn)。這通過將模型與所有可能的子模型(或仔細(xì)選擇它們)進(jìn)行比較來基本檢查模型中的可能偏差。

交叉驗(yàn)證是評估用于預(yù)測的模型的最佳方式。在這里,您將數(shù)據(jù)集分為兩組(訓(xùn)練和驗(yàn)證)。觀察值和預(yù)測值之間的簡單均方差可以給出預(yù)測精度的度量。

如果您的數(shù)據(jù)集具有多個混淆變量,則不應(yīng)選擇自動模型選擇方法,因?yàn)槟幌雽⑺鼈兎旁谀P椭小?/p>

這也將取決于你的目標(biāo)。與高度統(tǒng)計學(xué)顯著的模型相比,可以發(fā)現(xiàn)較不強(qiáng)大的模型易于實(shí)現(xiàn)。

回歸正則化方法(Lasso,Ridge和ElasticNet)在數(shù)據(jù)集中變量之間的高維數(shù)和多重共線性的情況下工作良好。

結(jié)束注

到現(xiàn)在為止,我希望你能有一個回歸的概述。這些回歸技術(shù)應(yīng)該考慮到數(shù)據(jù)的條件。找出使用哪種技術(shù)的最好方法之一是檢查變量族,即離散或連續(xù)。

在這篇文章中,我討論了7種類型的回歸和一些與每種技術(shù)相關(guān)的關(guān)鍵事實(shí)。作為這個行業(yè)的新人,我建議你學(xué)習(xí)這些技術(shù),然后在你的模型中實(shí)現(xiàn)它們。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容