實(shí)例
在jupyter中實(shí)現(xiàn)

導(dǎo)入所需要的python庫

導(dǎo)入數(shù)據(jù)

查看是否有缺失值

繪制price列 的圖表

發(fā)現(xiàn)沒有離散值

繪制carat列的圖表

發(fā)現(xiàn)有離散值!繪制carat列的圖表,發(fā)現(xiàn)carat最大值雖然為5克拉但是非常少,但是超過2克拉的值非常少,所以保留最大值2克拉以內(nèi)的數(shù)據(jù)

去除離散值

去除離散值后繪圖

繪制cut_ord列的圖表,數(shù)字越大等級(jí)越高 發(fā)現(xiàn)數(shù)據(jù)中切工等級(jí)多分布在中高級(jí)

繪制凈度等級(jí)clarity_ord的圖表 數(shù)字越大等級(jí)越高 發(fā)現(xiàn)數(shù)據(jù)中凈度等級(jí)為8個(gè)等級(jí)多分布在低中級(jí)

建立新的索引

發(fā)現(xiàn)三個(gè)變量和price列都不呈線性分布

使用price列的log對(duì)數(shù)做散點(diǎn)圖

發(fā)現(xiàn)carat列和log_price列是呈線性分布的,而且是正分布

刪除price列

刪除cut_ord列和clarity_ord列

創(chuàng)建虛擬變量

把虛擬變量提取出來放入cols中

創(chuàng)建要做回歸分析的data_preprocessed數(shù)據(jù)框
以上都是進(jìn)行數(shù)據(jù)處理的過程,接下來才要進(jìn)行回歸分析。

把log_price列的數(shù)據(jù)提取出來,然后刪除log_price列

表轉(zhuǎn)化為數(shù)據(jù)

分割訓(xùn)練集和測(cè)試集

創(chuàng)建回歸
創(chuàng)建訓(xùn)練集的散點(diǎn)圖

y_train數(shù)據(jù)里是原有price訓(xùn)練集的log數(shù)值 而y_hat是price的預(yù)測(cè)值./ 從散點(diǎn)圖可以看出price的log值(y_train)和price的預(yù)測(cè)值(y_hat)無差異,模型經(jīng)過了第一次檢驗(yàn)

所有變量的權(quán)重如果為正數(shù) 表示價(jià)格(price)只會(huì)隨著該變量而增加;若為負(fù)數(shù) 表示價(jià)格(price)會(huì)因?yàn)樵撟兞慷陆?/div>
創(chuàng)建測(cè)試集的散點(diǎn)圖

原始價(jià)格(log_price)測(cè)試集(y_test)和預(yù)測(cè)價(jià)格測(cè)試集(y_hat_test)同樣是呈線性分布

把預(yù)測(cè)價(jià)格放入df_pf數(shù)據(jù)框中 這個(gè)價(jià)格是通過x_test測(cè)試集預(yù)測(cè)出的

測(cè)試集含有20%的數(shù)據(jù),y_test是原有的價(jià)格

把兩組數(shù)據(jù)放在一個(gè)數(shù)據(jù)框中

殘差檢驗(yàn)

差異百分比

描述統(tǒng)計(jì)中顯示差異百分比最大值為292.55 較大

使用display函數(shù)展示差異百分比后300行(tail(300))的 數(shù)據(jù) 發(fā)現(xiàn)差異百分比超過100%也就300行,而測(cè)試集數(shù)據(jù)共有9900行,300/9900=3%,占數(shù)據(jù)的3%

繪制差異百分比圖表

由差異百分比圖表的呈現(xiàn)可知。差異百分比多集中在100%之內(nèi),多分布在0-50之間,占總數(shù)據(jù)的90%以上,所以該模型還不錯(cuò),可以用于數(shù)據(jù)預(yù)測(cè)。
Over
Created By Tao
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡信或評(píng)論聯(lián)系作者。
相關(guān)閱讀更多精彩內(nèi)容
- 回歸,最初是遺傳學(xué)中的一個(gè)名詞,是由生物學(xué)家兼統(tǒng)計(jì)學(xué)家高爾頓首先提出來的。他在研究人類的身高時(shí),發(fā)現(xiàn)高個(gè)子回歸于人...
- 一般線性回歸---完整過程 ##線性回歸包括幾個(gè)方面:數(shù)據(jù)觀察,初步擬合,交互作用,多重共線性,回歸診斷,擬合中出...
- 線性回歸分析流程圖如下: 一、基本關(guān)系查看 線性回歸分析是用于研究定量數(shù)據(jù)之間的影響關(guān)系的,通常先有相關(guān)關(guān)系,才會(huì)...
- 在上一篇(相關(guān)分析一篇概全)文章中,我們總結(jié)了關(guān)于相關(guān)分析的內(nèi)容。編寫的過程讓我想起曾經(jīng)回答過的一個(gè)問題:“為什么...
- 線性回歸分析是一種研究影響關(guān)系的方法,在實(shí)際研究里非常常見。不管你有沒有系統(tǒng)學(xué)習(xí)過,對(duì)于線性回歸,相信多少都有那么...