北京二手房數(shù)據(jù)分析

一、數(shù)據(jù)來源:通過python爬取鏈家已交易的二手房數(shù)據(jù)

二、項目背景:通過二手房交易的歷史數(shù)據(jù),觀測影響價格有哪些因素。

三、初識數(shù)據(jù):讀取數(shù)據(jù),并對數(shù)據(jù)進行預(yù)覽

通過對數(shù)據(jù)的初步預(yù)覽,我們發(fā)現(xiàn)本次爬取的數(shù)據(jù)有5672個觀測數(shù)據(jù),有35個變量,最低價是每平米1505元,最高價是每平米155589元,差距還是挺大的,初識數(shù)據(jù)之后,下一步就需要進行需求對數(shù)據(jù)清進行洗了。

四、數(shù)據(jù)清洗

1)、數(shù)據(jù)處理的思想:根據(jù)缺失值的數(shù)量進行判斷是需要進行插補還是刪除,包含異常值的進行刪除????或者百分0.5的進行賦值,為了便于分析需要將數(shù)據(jù)類型間的相互轉(zhuǎn)換以及不同量綱進行標(biāo)準(zhǔn)化。

2)、通過觀察發(fā)現(xiàn)部分成交的房價并不是一個值,而是給了一個區(qū)間,這里需要進行判斷,如果是一個值的話,取值他本身,如果是區(qū)間的話去他們的均值,賦值新變量把原始的變量刪除后,因為這部分占比比較小,所以這樣處理對結(jié)果影響不大。

通過兩種刪除變量的方式,優(yōu)化之后數(shù)據(jù)還有30個變量。

3)、接下來我們需要查看一下數(shù)據(jù)中是否包含缺失值,如果有,哪些變量有缺水值,缺失值有多少,占比多少,是否超過了70%。

通過以上的操作,發(fā)現(xiàn)缺失值主要是在成交時間上,缺失值有171條,占比3%,通過對日期類型的轉(zhuǎn)換這樣就可以對日期進行計算了,接著對日期變量進行描述可以看到成交日期的均值是在2020-01-31日,最后我們把成交日期的均值進行了缺水值填充,如果如果缺失值比較大,我們可以選擇進行多重插補法進行填充或者5%的分為點進行填充。

4)、為了方便后期分析的應(yīng)用,我們那可以把變量的名稱、位置進行調(diào)整:

5)、處理完缺失值后我們還需要查看數(shù)據(jù)是否存在異常值,接下來讓我們先看看房價是否存在異常值。

最大面積2117平,而成交價僅僅是94元每平米,單價最低的是406.09,而建筑面積是98.5平米,最低價是1萬元,最高價是3700萬,均價是272,建筑面積36平米,這些數(shù)據(jù)是不太符合當(dāng)前市場的所以需要把這些數(shù)值給刪除掉,刪除后剩余5668個觀測記錄和30個變量。

五、數(shù)據(jù)分析:

1)、分析各區(qū)與房價之間的關(guān)系:按區(qū)分類、各區(qū)住房量、各區(qū)均價。

通過觀察數(shù)據(jù):實際交易價格和每平米單價的變化基本上是一致的,距離城區(qū)越近的價格越高基本上是成正比的。西城、東城、海淀、朝陽的房價較高,門頭溝、房山、懷柔、平谷房價較低,這說明越接近市中心的房價越高。

2)、分析房屋大小與房價的關(guān)系

通過觀察數(shù)據(jù):我們可以發(fā)現(xiàn)房屋面積和成交價格成長尾分布,價格隨著面結(jié)的增大而增大。從成交數(shù)量上看,成交的房屋主要集中在房屋面積為80~100平米,隨著面積的增大,每平米的均價也相對的在降低,說明面積和價格成反比,通過進一步觀察,發(fā)現(xiàn)造成這種現(xiàn)象的主要是因為受離城區(qū)的距離影響。

3)、接下來我們看看哪些戶型最受市場歡迎。

這里我們發(fā)現(xiàn)兩室一廳一廚一衛(wèi)和一室一廳一廚一衛(wèi)的戶型比較受市場歡迎,而隨著庭室的增多交易數(shù)量相應(yīng)的減少,這也說明了這些戶型是屬于人們生活的剛需,而房屋單價高,面積大占用的資金就會多,對于現(xiàn)在我國的發(fā)展水平而言也是哈符合實際的,有錢的先對來說還是少數(shù)的。

4)、分析房屋價格與裝修類型的關(guān)系

從成交數(shù)量上看有電梯的偏多且有電梯的價格也相對偏高,但是價格差距不是很明顯。

房屋價格與建筑年代

從圖上可以觀察2000年之后的交易房屋比較多,而年代越久數(shù)量相對較少。

年代較久遠(yuǎn)的建筑用房價格相對較貴一點,為什么老房子反而比新房子價格要高吶,查看了數(shù)據(jù)發(fā)現(xiàn)年代較早的樓層數(shù)比較低,有可能跟拆遷有關(guān)系.

六、總結(jié):

通過上邊的分析我們發(fā)現(xiàn)影響價格的關(guān)系主要跟距離市中心的距離和建筑年代關(guān)系比較密切和電梯和裝修情況的關(guān)系不是很明顯,同時兩室一廳一廚一衛(wèi)和一室一廳一廚一衛(wèi)的戶型比較受大家的喜歡,這個跟經(jīng)濟狀況、家庭成員總數(shù)有一定的關(guān)系。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容