Kaggle之旅—房價(jià)評(píng)估(2)

我們接著繼續(xù)聊下房價(jià)評(píng)估這個(gè)項(xiàng)目,今天主要來講講數(shù)據(jù)分析中的回歸分析。

有趣點(diǎn):本文會(huì)討論一個(gè)很有趣的觀點(diǎn),包括Kaggle中的多個(gè)kernel中也都想當(dāng)然的引用且使用了的觀點(diǎn)。那他真的正確嗎?有沒有其他可能性呢?

項(xiàng)目:House Prices: Advanced Regression Techniques

數(shù)據(jù):美國愛荷華州中部愛慕斯的歷史房屋相關(guān)數(shù)據(jù)

深入理解數(shù)據(jù)

這個(gè)項(xiàng)目提供的數(shù)據(jù)一共有81個(gè)列,即81個(gè)變量。這么多個(gè)變量,如何知道哪兩個(gè)變量是強(qiáng)關(guān)聯(lián)關(guān)系,哪兩個(gè)是弱關(guān)聯(lián)關(guān)系呢?

  • 這里涉及到變量之間的關(guān)系

1.完全確定關(guān)系 → 函數(shù)關(guān)系

2.不存在完全確定關(guān)系 → 相關(guān)關(guān)系 → 平行關(guān)系[相關(guān)分析] + 依存關(guān)系[回歸分析]

若兩個(gè)變量是線性相關(guān),則定會(huì)有線性相關(guān)系數(shù),也會(huì)有相關(guān)系數(shù)的誤差。我們也可以從變量之間線性相關(guān)這個(gè)角度嘗試?yán)斫狻?/p>

  • 開頭所提出的變量之間關(guān)系問題 → 跟SalaPrice線性相關(guān)的變量都有哪些,相關(guān)系數(shù)大的又有哪些?

相關(guān)矩陣可以告訴我們:

image

結(jié)果得出由38個(gè)變量之間的相關(guān)系數(shù)組成的相關(guān)矩陣。

38個(gè)變量怎么來的?

相關(guān)系數(shù)也只能由數(shù)值之間進(jìn)行計(jì)算,所以結(jié)果中的38個(gè)變量 = 3個(gè)float類型變量 + 35個(gè)int類型變量組成。

將這個(gè)相關(guān)矩陣畫出來。

image

挑選與SalaPrice相關(guān)性排名前10的變量們。

image

將這10個(gè)變量的相關(guān)矩陣畫出來。

image

數(shù)據(jù)分析

我們首先來了解下回歸分析。

  • 回歸分析

回歸分析:研究因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。

  • 回歸分析的好處:

1.可表明自變量和因變量之間的顯著關(guān)系

2.可表明多個(gè)自變量對(duì)一個(gè)因變量的影響強(qiáng)度

  • 回歸模型都有哪些?

1.線性回歸

2.邏輯回歸

3.多項(xiàng)式回歸

4.逐步回歸

5.嶺回歸

6.套索回歸

7.ElasticNet回歸

  • 回歸分析有5個(gè)假設(shè):

1.線性關(guān)系

2.多元正態(tài)分布

3.沒有或少量的多重共線性

4.無自相關(guān)

5.同方差性

  • 回歸分析中需要注意點(diǎn):

1.對(duì)異常值很敏感,需要排除異常值

2.要求所有變量為多元正態(tài),若不是時(shí),需要進(jìn)行非線性變換

3.獨(dú)立變量之間不過高相關(guān)

使用相關(guān)矩陣來計(jì)算

計(jì)算容差

方差膨脹因子

4.數(shù)據(jù)應(yīng)少或沒有自相關(guān)

殘差彼此不相關(guān)時(shí)發(fā)生自相關(guān)

5.同方差性

問題點(diǎn)

  • 當(dāng)前這個(gè)數(shù)據(jù)集中,SalaPrice并非是所期望的正態(tài)分布,那需要對(duì)SalaPrice進(jìn)行正態(tài)分布化處理嗎?

Kaggle中的多個(gè)kernel在進(jìn)行回歸分析時(shí),都會(huì)校驗(yàn)因變量是否為正態(tài)分布,就因?yàn)槭腔貧w分析中5個(gè)假設(shè)中的其中之一。

image

正態(tài)分布化處理

image
  • 上述這個(gè)步驟是必需的嗎?

可以確定的是回歸分析中的正態(tài)分布,未必是必需的。

我們下篇文章接著聊回歸分析的問題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容