我們接著繼續(xù)聊下房價(jià)評(píng)估這個(gè)項(xiàng)目,今天主要來講講數(shù)據(jù)分析中的回歸分析。
有趣點(diǎn):本文會(huì)討論一個(gè)很有趣的觀點(diǎn),包括Kaggle中的多個(gè)kernel中也都想當(dāng)然的引用且使用了的觀點(diǎn)。那他真的正確嗎?有沒有其他可能性呢?
項(xiàng)目:House Prices: Advanced Regression Techniques
數(shù)據(jù):美國愛荷華州中部愛慕斯的歷史房屋相關(guān)數(shù)據(jù)
深入理解數(shù)據(jù)
這個(gè)項(xiàng)目提供的數(shù)據(jù)一共有81個(gè)列,即81個(gè)變量。這么多個(gè)變量,如何知道哪兩個(gè)變量是強(qiáng)關(guān)聯(lián)關(guān)系,哪兩個(gè)是弱關(guān)聯(lián)關(guān)系呢?
- 這里涉及到變量之間的關(guān)系
1.完全確定關(guān)系 → 函數(shù)關(guān)系
2.不存在完全確定關(guān)系 → 相關(guān)關(guān)系 → 平行關(guān)系[相關(guān)分析] + 依存關(guān)系[回歸分析]
若兩個(gè)變量是線性相關(guān),則定會(huì)有線性相關(guān)系數(shù),也會(huì)有相關(guān)系數(shù)的誤差。我們也可以從變量之間線性相關(guān)這個(gè)角度嘗試?yán)斫狻?/p>
- 開頭所提出的變量之間關(guān)系問題 → 跟SalaPrice線性相關(guān)的變量都有哪些,相關(guān)系數(shù)大的又有哪些?
相關(guān)矩陣可以告訴我們:

結(jié)果得出由38個(gè)變量之間的相關(guān)系數(shù)組成的相關(guān)矩陣。
38個(gè)變量怎么來的?
相關(guān)系數(shù)也只能由數(shù)值之間進(jìn)行計(jì)算,所以結(jié)果中的38個(gè)變量 = 3個(gè)float類型變量 + 35個(gè)int類型變量組成。
將這個(gè)相關(guān)矩陣畫出來。

挑選與SalaPrice相關(guān)性排名前10的變量們。

將這10個(gè)變量的相關(guān)矩陣畫出來。

數(shù)據(jù)分析
我們首先來了解下回歸分析。
- 回歸分析
回歸分析:研究因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。
- 回歸分析的好處:
1.可表明自變量和因變量之間的顯著關(guān)系
2.可表明多個(gè)自變量對(duì)一個(gè)因變量的影響強(qiáng)度
- 回歸模型都有哪些?
1.線性回歸
2.邏輯回歸
3.多項(xiàng)式回歸
4.逐步回歸
5.嶺回歸
6.套索回歸
7.ElasticNet回歸
- 回歸分析有5個(gè)假設(shè):
1.線性關(guān)系
2.多元正態(tài)分布
3.沒有或少量的多重共線性
4.無自相關(guān)
5.同方差性
- 回歸分析中需要注意點(diǎn):
1.對(duì)異常值很敏感,需要排除異常值
2.要求所有變量為多元正態(tài),若不是時(shí),需要進(jìn)行非線性變換
3.獨(dú)立變量之間不過高相關(guān)
使用相關(guān)矩陣來計(jì)算
計(jì)算容差
方差膨脹因子
4.數(shù)據(jù)應(yīng)少或沒有自相關(guān)
殘差彼此不相關(guān)時(shí)發(fā)生自相關(guān)
5.同方差性
問題點(diǎn)
- 當(dāng)前這個(gè)數(shù)據(jù)集中,SalaPrice并非是所期望的正態(tài)分布,那需要對(duì)SalaPrice進(jìn)行正態(tài)分布化處理嗎?
Kaggle中的多個(gè)kernel在進(jìn)行回歸分析時(shí),都會(huì)校驗(yàn)因變量是否為正態(tài)分布,就因?yàn)槭腔貧w分析中5個(gè)假設(shè)中的其中之一。

正態(tài)分布化處理

- 上述這個(gè)步驟是必需的嗎?
可以確定的是回歸分析中的正態(tài)分布,未必是必需的。
我們下篇文章接著聊回歸分析的問題。