回歸模型-案例集合

探序基因腫瘤研究院整理,探序基因數(shù)學(xué)工作室整理

回歸的目的:回歸分析能估計(jì)兩個(gè)或者多個(gè)變量之間的關(guān)系。例如,揭示了因變量和自變量之間的顯著關(guān)系,揭示了多個(gè)自變量對(duì)一個(gè)因變量的影響程度大小。

探究研究變量和影響因素之間的關(guān)系、評(píng)估改變一個(gè)因素之后的影響

探索檢驗(yàn)

假設(shè)進(jìn)行預(yù)測



案例:

1. 根據(jù)當(dāng)前的經(jīng)濟(jì)狀況來估計(jì)一家公司的銷售額增長。你有最近的公司數(shù)據(jù),數(shù)據(jù)表明銷售增長大約是經(jīng)濟(jì)增長的 2.5 倍。利用這種洞察力,我們就可以根據(jù)當(dāng)前和過去的信息預(yù)測公司未來的銷售情況。

2. 價(jià)格變化的影響和促銷活動(dòng)的數(shù)量的影響

3. 通過自變量(房間面積、樓層高度、房子單價(jià)、是否有電梯、周圍學(xué)校數(shù)量、距地鐵站位置)擬合預(yù)測因變量(房價(jià)),現(xiàn)在發(fā)現(xiàn)房子單價(jià)與樓層高度之間有著很強(qiáng)的共線性,VIF值高于20;不能使用常見的最小二乘法OLS回歸分析,需要使用嶺回歸模型。

4. 現(xiàn)測得胎兒身高、頭圍、體重和胎兒受精周齡數(shù)據(jù),希望建立胎兒身高、頭圍、體重去和胎兒受精周齡間的回歸模型。根據(jù)醫(yī)學(xué)常識(shí)情況(同時(shí)結(jié)合普通線性最小二乘法OLS回歸測量),發(fā)現(xiàn)三個(gè)自變量之間有著很強(qiáng)的共線性,VIF值高于200;可知胎兒身高、體重之間肯定有著很強(qiáng)的正相關(guān)關(guān)系,因而使用嶺回歸模型。

表3為嶺回歸分析結(jié)果,根據(jù)分析結(jié)果可知,模型公式為:胎兒受精周齡=9.994 + 0.430*身長(cm)-0.284*頭圍(cm) + 0.007*體重(g)。身長、體重通過顯著性檢驗(yàn)(P<0.05)說明對(duì)胎兒受精周齡有影響關(guān)系。

總結(jié)分析可知:身長(cm),體重(g)會(huì)對(duì)胎兒受精周齡產(chǎn)生顯著的正向影響關(guān)系。但是頭圍(cm)并不會(huì)對(duì)胎兒受精周齡產(chǎn)生影響關(guān)系。

參考:簡書-嶺回歸分析


5. 一家大型商業(yè)銀行有多家分行,近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做定量分析,以便找出控制不良貸款的方法。表7.5是該銀行所屬25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)。

(1)計(jì)算y與其余4個(gè)變量的簡單相關(guān)系數(shù)。

(2)建立不良貸款y對(duì)4個(gè)自變量的線性回歸方程,所得的回歸系數(shù)是否合理?

(3)分析回歸模型的共線性。

(4)采用后退法和逐步回歸法選擇變量,所得的回歸方程的回歸系數(shù)是否合理,是否還存在共線性?

(5)建立不良貸款y對(duì)4個(gè)變量的嶺回歸。

(6)對(duì)(4)步剔除變量后的回歸方程再做嶺回歸。

(7)某研究人員希望做y對(duì)各項(xiàng)貸款余額、本年累計(jì)應(yīng)收貸款、貸款項(xiàng)目個(gè)數(shù)這3個(gè)自變量的回歸,你認(rèn)為這樣做可行嗎?如果可行應(yīng)怎么做?

https://blog.csdn.net/princessyang/article/details/110725575

6. 互聯(lián)網(wǎng)經(jīng)濟(jì)對(duì)中國經(jīng)濟(jì)增長影響。準(zhǔn)備數(shù)據(jù):Y:國民生產(chǎn)總值、K:固定資產(chǎn)投資;L:年期末就業(yè)人數(shù);A:互聯(lián)網(wǎng)綜合發(fā)展水平數(shù)據(jù)處理:為了模型的穩(wěn)定性與計(jì)算的簡易性,分別對(duì)兩端取對(duì)數(shù),變成線性關(guān)系,得到最終模型:lnY=γlnA+αlnL+βlnk

CSDN-R語言-嶺回歸的代碼與案例解讀

7. 在交通上,比如安裝測速儀真的能夠提高安全性嗎?

- 由于交通事故的發(fā)生很多時(shí)候是取決于車輛速度差,并非速度,安裝測速儀也可能導(dǎo)致事故增加;

- 可能由于安裝測速儀造成了其他更重要因素的改變,從而直接說安裝測速儀提高安全性并不準(zhǔn)確;

- 安裝測速儀還可能導(dǎo)致車輛繞行,交通事故遷移,單純比較一個(gè)地點(diǎn)的交通事故數(shù)量是沒有意義的。

此時(shí)我們就需要回歸分析的方法來幫我們探究這些因素之間的關(guān)系

知乎-回歸分析基礎(chǔ)(模型的選擇、變量的處理與選擇、變量間相關(guān)性)

8. 探討引發(fā)疾病的危險(xiǎn)因素,并根據(jù)危險(xiǎn)因素預(yù)測疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險(xiǎn)因素。同時(shí)根據(jù)該權(quán)值可以根據(jù)危險(xiǎn)因素預(yù)測一個(gè)人患癌癥的可能性。

9. 大家在接觸的時(shí)候都知道我們是為了研究某幾個(gè)自變量,對(duì)一個(gè)因變量造成的影響情況。這一些原因是否真的會(huì)導(dǎo)致這個(gè)結(jié)果?還有,這些原因出現(xiàn)時(shí),會(huì)造成結(jié)果出現(xiàn)的機(jī)率是多少。比如說我們吃的越多長得越胖,那么進(jìn)食量就是原因,體重就是結(jié)果。那么我們?yōu)榱搜芯窟M(jìn)食量對(duì)體重的影響情況,我們就會(huì)選擇回歸分析。只要是涉及到誰對(duì)誰的影響情況,我們通通選擇的都是回歸分析。


10. 某銀行從歷史貸款客戶中隨機(jī)抽取16個(gè)樣本,根據(jù)設(shè)計(jì)的指標(biāo)體系分別計(jì)算他們的“商業(yè)信用支持度”()和“市場競爭地位等級(jí)”(),類別變量G中,1代表貸款成功,2代表貸款失敗。

參考:51CTO-R語言有序多分類邏輯回歸方程 r語言多元logistic回歸

11.


回歸模型建立步驟:

找到盡可能多的可能性——找到對(duì) y 產(chǎn)生影響的所有變量 x;

構(gòu)建模型——對(duì)自變量 x(x可以有多種)進(jìn)行選擇,選擇 x 的不同組合;

估計(jì)模型參數(shù)——通過擁有的數(shù)據(jù)對(duì)模型進(jìn)行擬合,得到完整的模型;

檢測模型效果——擬合優(yōu)度(R^2)檢測,或者進(jìn)行預(yù)測,用預(yù)測結(jié)果進(jìn)行效果檢驗(yàn)(如果效果不行,回到第2步重新構(gòu)建模型)

知乎-回歸分析基礎(chǔ)(模型的選擇、變量的處理與選擇、變量間相關(guān)性)


變量的特殊處理:

由于回歸模型是對(duì)數(shù)值進(jìn)行回歸,最終的模型是計(jì)算出具體的數(shù)值,因此非數(shù)值的變量(名義變量,例如:變量交通方式:汽車、公交車、高鐵)不能直接放入模型中,要先進(jìn)行轉(zhuǎn)換(轉(zhuǎn)換為:汽車=0,公交車=1,高鐵=2)才可以。

但單純的轉(zhuǎn)化為數(shù)字還是不行,因?yàn)檗D(zhuǎn)化后的數(shù)值沒有大小關(guān)系,即我可以設(shè)置汽車=0,公交車=1,高鐵=2,同樣我也可以設(shè)置汽車=2,公交車=1,高鐵=0。因此還要接著進(jìn)行處理,將一個(gè)變量交通工具,轉(zhuǎn)化為三個(gè)變量:是否乘坐汽車(0否、1是)、是否乘坐公交車、是否乘坐高鐵。

此時(shí),如果將這三個(gè)變量一并放入模型中嗎,則會(huì)出現(xiàn)共線性錯(cuò)誤。其實(shí),如果是否乘坐汽車與是否乘坐公交車兩個(gè)變量都取0,那么表示該條數(shù)據(jù)一定表示的是乘坐高鐵,因此只需要放入任意兩個(gè)變量,便可以表示出交通工具的所有信息。故轉(zhuǎn)化為啞元變量后,一定不能全放入模型,最多放入n-1個(gè)。

以上就是轉(zhuǎn)化為啞元變量的過程,具體代碼實(shí)現(xiàn)將在后續(xù)單個(gè)模型介紹中一起展示。

當(dāng)然需要轉(zhuǎn)換為啞元變量的情況不止上面一種,總結(jié)需要轉(zhuǎn)換為啞元變量的情況如下 :

?對(duì)于無序多分類:需要轉(zhuǎn)換;對(duì)于有序多分類:酌情考慮,但最好都要轉(zhuǎn)換——因?yàn)榈乳g距可能不合理,例如成績排名,是否是第一名與是否是第二名對(duì)因變量 y 取值的影響程度有所不同,此時(shí)就需要啞元處理;對(duì)于連續(xù)變量、計(jì)數(shù)變量:也可以考慮轉(zhuǎn)換為名義變量然后再轉(zhuǎn)換為啞元變量;例如年齡,為了探究不同年齡段對(duì)因變量 y 的影響差異,可以按年齡段進(jìn)行劃分,分為有序名義變量(10~19=1、20~29=2……)之后再轉(zhuǎn)換為啞元變量進(jìn)行回歸分析。

參考:

知乎-回歸分析基礎(chǔ)(模型的選擇、變量的處理與選擇、變量間相關(guān)性)

簡書-回歸分析


理論:

機(jī)器學(xué)習(xí)入門之7種經(jīng)典回歸模型


使用詳解:

知乎-【回歸分析】一文讀懂嶺回歸,附案例教學(xué)

知乎-R語言——Ridge和Lasso回歸分析

SPSS案例實(shí)踐:嶺回歸分析

數(shù)據(jù)分析中常見的七種回歸分析以及R語言實(shí)現(xiàn)(三)---嶺回歸

CSDN-R語言之嶺回歸xt7.6

CSDN-R語言學(xué)習(xí)筆記 06 嶺回歸、lasso回歸

簡書-嶺回歸分析


回歸對(duì)比:

從目標(biāo)函數(shù)可以看出,嶺回歸,Lasso回歸都是在OLS的基礎(chǔ)上產(chǎn)生的,這樣看來,OLS似乎已經(jīng)可以解決所有線性回歸的問題了,什么還會(huì)出現(xiàn)嶺回歸,Lasso回歸等模型呢?其實(shí)是因?yàn)镺LS會(huì)隨著特征維度的增加,模型求得的參數(shù) w 0 , w 1 , w 2 , . . , w n w_0,w_1,w_2,..,w_n w0,w1,w2,..,wn的值也會(huì)顯著的增加。產(chǎn)生這個(gè)現(xiàn)象的原因是OLS試圖最小化公式 arg?min ? ( ∑ ( y 1 ? y ) 2 ) \argmin(\sum(y_1-y)^2) argmin(∑(y1?y)2)的值,因此為了擬合訓(xùn)練數(shù)據(jù)中很小的x值差異產(chǎn)生較大的y值差異,這樣就必須要使用較大的w值。而越來越大的w值在測試數(shù)據(jù)上的反映的結(jié)果則是任何一個(gè)特征微小的變化都會(huì)導(dǎo)致最終的預(yù)測目標(biāo)值大幅度變化,產(chǎn)生過度擬合現(xiàn)象。為了面對(duì)OLS在高維度數(shù)據(jù)訓(xùn)練存在過擬合現(xiàn)象,所以引入了加入懲罰項(xiàng)的嶺回歸,Lasso回歸等模型。嶺回歸相比OLS在高維特征訓(xùn)練的結(jié)果來看,模型參數(shù)w的值會(huì)顯著降低,并且 α \alpha α參數(shù)的大小與訓(xùn)練結(jié)果的回歸參數(shù)呈反向關(guān)系: α \alpha α越大,回歸參數(shù)越小,模型越平緩。但是在嶺回歸模型中,無論將 α \alpha α設(shè)多大,回歸模型參數(shù)都只有非常小的絕對(duì)值,達(dá)不到零值。這樣就造成了一個(gè)結(jié)果,可能有很多特征對(duì)最終預(yù)測結(jié)果的影響不大,但還是得將其加入模型計(jì)算中,這樣會(huì)對(duì)數(shù)據(jù)的產(chǎn)生,存儲(chǔ),傳輸,計(jì)算等產(chǎn)生較大的浪費(fèi)。Lasso就解決了嶺回歸的這樣一個(gè)問題,Lasso回歸可以將一個(gè)或多個(gè)不重要的特征參數(shù)值計(jì)算為零。從而減少特征參數(shù),達(dá)到了壓縮相關(guān)特征的目的。下面我們實(shí)踐來看下這些差異。

https://blog.csdn.net/weixin_47166032/article/details/119055092

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、案例背景 研究高管信息以及企業(yè)規(guī)模資產(chǎn)對(duì)于研發(fā)投入的影響,其中高管信息包括,高管研究平均年齡、高管平均任期(天...
    spssau閱讀 4,115評(píng)論 0 0
  • 一、案例說明 調(diào)查不同人群對(duì)于創(chuàng)業(yè)方面的想法,其中認(rèn)為也許影響“創(chuàng)業(yè)可能性”分為“科技發(fā)展”,“社會(huì)資源”和“教育...
    spssau閱讀 1,121評(píng)論 0 0
  • 一、案例背景 1.案例說明 研究調(diào)查100家公司2010-2013年關(guān)于財(cái)務(wù)方面的具體數(shù)據(jù),這些財(cái)務(wù)指標(biāo)維度分別為...
    spssau閱讀 808評(píng)論 0 1
  • 最近覺得自己做的二階結(jié)構(gòu)方程模型過于花哨,想改成最基礎(chǔ)的中介模型。中介模型曾經(jīng)用Rstudio里mediation...
    聲音止痛劑閱讀 3,511評(píng)論 2 3
  • 一、案例說明 1.案例數(shù)據(jù) 在“工資影響因素”的調(diào)查問卷中,調(diào)查了每個(gè)人的起始工資、工作經(jīng)驗(yàn)、受教育年限、受雇月數(shù)...
    spssau閱讀 1,354評(píng)論 0 8

友情鏈接更多精彩內(nèi)容