又快到了高校的畢業(yè)季,不知道即將畢業(yè)的同學(xué)們有沒(méi)有想好怎么租房呢?最近復(fù)習(xí)了python數(shù)據(jù)分析的一些知識(shí),然后在網(wǎng)上爬取了廣州的租房?jī)r(jià)格數(shù)據(jù),做了一個(gè)廣州租房?jī)r(jià)格的數(shù)據(jù)分析小項(xiàng)目。
步驟
- 明確分析的目的
- 數(shù)據(jù)準(zhǔn)備
- 數(shù)據(jù)清洗
- 數(shù)據(jù)分析
- 數(shù)據(jù)可視化
- 分析報(bào)告
明確分析的目的
通過(guò)對(duì)廣州租房房源的價(jià)格、面積、地理位置、交通信息等因素的分析,為畢業(yè)后想留在一線城市如廣州工作的同學(xué),提供一個(gè)廣州租房情況的整體的分析調(diào)查.
探索的問(wèn)題
- 房租的分布情況
- 哪種戶型的房源最多
- 哪條地鐵線附近的房租比較貴
- 哪個(gè)區(qū)的房租更貴
數(shù)據(jù)準(zhǔn)備
1.數(shù)據(jù)說(shuō)明
- 數(shù)據(jù)來(lái)源于廣州房居客
- 采用八爪魚(yú)采集器工具爬取
- house_district:表示房屋所在的區(qū)
- house_location:表示房屋所在的地理位置
- house_name:表示房屋的名字
- house_room:表示房屋的戶型
- subway_info:表示房屋周邊的地鐵的信息
- house_price:表示房屋的價(jià)格
2.數(shù)據(jù)預(yù)覽
1).首先看一下整個(gè)數(shù)據(jù)集
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] #使圖像顯示中文
%pylab inline
gz_house = pd.read_csv('house_gz.csv') #加載數(shù)據(jù)
gz_house.head(5) #預(yù)覽數(shù)據(jù)
本次分析一共采集了871條有效的房源信息,其中的subway_info屬性只有693條記錄,存在缺失值,說(shuō)明有一部分的房源是周邊沒(méi)有地鐵的,這些將在數(shù)據(jù)清洗中進(jìn)行處理.
數(shù)據(jù)清洗
數(shù)據(jù)清理的流程為:
- 選擇子集
- 缺失數(shù)據(jù)處理
- 數(shù)據(jù)類型轉(zhuǎn)換
- 異常值處理
- 有時(shí)為了便于分析,也會(huì)對(duì)列名進(jìn)行重命名或者新增列字段
1.選擇子集
對(duì)于house_room字段,我們需要提取出其中的面積數(shù)據(jù)和房屋戶型數(shù)據(jù)
對(duì)于subway_info字段,我們需要提取出其中的地鐵信息數(shù)據(jù)
#清洗house_room字段,把其中的房子規(guī)格、面積提取出來(lái)
#提取house_room字段中房子的面積大小,并插入到原數(shù)據(jù)中,命名為house_area
#提取house_room字段中的房間的規(guī)格,并插入回house_room字段中
house_room_info = gz_house['house_room'].str.split('|',expand=True)
gz_house['house_area'] = house_room_info[2]
gz_house['house_room'] = house_room_info[1]
#對(duì)地鐵信息字段進(jìn)行清洗,提取其中的幾號(hào)線
gz_house['subway_info'] = gz_house['subway_info'].str.slice(1,4)
2.缺失數(shù)據(jù)處理
缺失數(shù)據(jù)的常用處理方式有:(1)刪除缺失值 (2)平均值填充 (3)算法填充 等
對(duì)于subway_info字段,有部分的房源沒(méi)有地鐵信息,可以人為的為缺失值命名為“無(wú)地鐵”
gz_house['subway_info'][pd.isnull(gz_house['subway_info'])] = '無(wú)地鐵'
3.數(shù)據(jù)類型轉(zhuǎn)換
對(duì)于house_area中的面子字段,分離出來(lái)的值都帶有㎡符號(hào),而在分析時(shí)房屋面積一般需要為浮點(diǎn)型(float)的數(shù)據(jù),因此需要將house_area中的㎡除去,并將數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換
'''提取house_area字段中的數(shù)字'''
def remove_m2(area):
new_value = area.replace('㎡','')
return np.float(new_value)
gz_house['house_area'] = gz_house['house_area'].apply(remove_m2)
經(jīng)過(guò)上面的步驟,來(lái)看一下清洗完的數(shù)據(jù)集.
數(shù)據(jù)分析與可視化
1.房租的分布情況
- 最底的房租價(jià)格為800元/月,最貴的房租價(jià)格為35000元/月
-
平均的房屋均價(jià)為4616元/月,有75%的房租超過(guò)了2825元/月
房租分布
最貴房租的房子和最低房租的房子長(zhǎng)什么樣?
gz_house[gz_house['house_price'] == 35000]
gz_house[gz_house['house_price'] == 800]
最貴的房子面積達(dá)到了315㎡,每平方米均價(jià)為 35000 / 315= 111元;
最便宜的房子面積為76平米,每平方米均價(jià)為 800 / 76 = 11元,兩者的房屋每平方米均價(jià)相差接近十倍!
最貴的房子位于珠江新城,地理位置處于廣州的CBD位置,周邊商圈林立,是最繁華的地段。而且房屋面積超過(guò)300㎡,附近還有地鐵5號(hào)線和3號(hào)線經(jīng)過(guò),房租這么貴也正常。
最便宜的房子位于花都美林湖,位置偏僻,開(kāi)車需要1-2小時(shí)才能到達(dá),而且周邊沒(méi)有地鐵,交通極不方便,所以雖然房屋面積不小,但是仍然是一個(gè)低的價(jià)格
房租價(jià)格直方圖
廣州大部分的租房的價(jià)格集中在2500至5000元的區(qū)間,其中以4000至4500的房源最多,超過(guò)8000以上的房源很少。
這個(gè)價(jià)格區(qū)間對(duì)于剛畢業(yè)的大學(xué)生來(lái)說(shuō)還是比較貴的

2.面積的分布情況
- 房屋面積最小的為16㎡,最大的為315㎡,有75%的房子超過(guò)65㎡
- 65㎡的房子足夠提供兩個(gè)生活的面積,對(duì)于剛畢業(yè)薪資水平不高的畢業(yè)同學(xué)可以考慮找一兩個(gè)朋友進(jìn)行合租,房租會(huì)相應(yīng)低一點(diǎn).
- 房屋面積集中分布在50-100平米的區(qū)間內(nèi),而低于50㎡的小面積型房源要少得多。這對(duì)于畢業(yè)后希望一個(gè)人住的同學(xué)來(lái)說(shuō)不是一個(gè)好的消息.

3.區(qū)域房源分布情況
-
天河區(qū)的房源最多,有288間可租房源,占總體的33%,其次是番禺區(qū)有156間可租房源,占總體的18%,最少的是花都和黃埔區(qū),只有17間和6間可租房源,僅占總體的1%
4.地鐵房源分布情況
- 有地鐵的房源比無(wú)地鐵的房源多,無(wú)地鐵的房源僅占20%
- 5號(hào)線附近的房源最多,由于5號(hào)線的起點(diǎn)和終點(diǎn)分別在黃埔荔灣,并且途徑珠江新城、楊箕等重要換乘站,如果在黃埔區(qū)工作,可以考慮沿著5號(hào)線租房
- 3號(hào)線附近的房源第2多:3號(hào)線沿途經(jīng)過(guò)多個(gè)高校和重要寫(xiě)字樓,起點(diǎn)和終點(diǎn)分別為天河客運(yùn)站還有番禺廣場(chǎng),附近的房源價(jià)格會(huì)比市中心的房源便宜不少。如果在市中心上班的話可以考慮去番禺或者天河客運(yùn)站附近租房
-
2號(hào)線、6號(hào)線、1號(hào)線都位于廣州的主城區(qū)越秀區(qū)、荔灣區(qū),并且相互之間換乘方便,如果工作地點(diǎn)在越秀區(qū)的話,沿著這三條地鐵附近租房也是個(gè)不錯(cuò)的選擇
5.雙維度分析——同時(shí)考慮區(qū)域和房租
- 越秀區(qū)的房租最貴,75%的房租都超過(guò)了3000元每月,其箱體也最長(zhǎng)。越秀區(qū)位于廣州市中心,區(qū)內(nèi)有許多廣州優(yōu)秀中小學(xué),屬于教育大區(qū),附近的房源對(duì)于家中有在讀書(shū)的小孩來(lái)說(shuō)是一個(gè)不錯(cuò)的選擇,但是對(duì)于剛畢業(yè)的大學(xué)生來(lái)說(shuō)可能不太適合.
- 天河區(qū)房租緊隨越秀區(qū)后,天河區(qū)聚集了廣州的服務(wù)、金融、銀行等企業(yè),薪資水平在廣州相對(duì)來(lái)說(shuō)也比較高,如果工作地點(diǎn)在天河區(qū),同時(shí)希望上班近一點(diǎn)的同學(xué),可以考慮一下在天河區(qū)租房.
-
如果在越秀區(qū)工作,可以考慮去荔灣區(qū)租房,地鐵方便,房租也比越秀區(qū)便宜很多;如果在天河區(qū)工作,可以考慮去番禺或者黃埔租房
6.多維度分析——同時(shí)考慮房屋面積、價(jià)格和地鐵之間的關(guān)系
將自變量設(shè)為房屋的面積,因變量設(shè)為房屋的價(jià)格,同時(shí)考慮房屋附近是否有地鐵的因素,繪制散點(diǎn)圖,并進(jìn)行線性回歸分析(這里用了2次多項(xiàng)式進(jìn)行曲線的擬合)
- 總體上,在同一面積下,有地鐵的房源的租房?jī)r(jià)格高于無(wú)地鐵的房源
- 面積和地鐵不是影響房源的唯一因素,同一面積下,有的無(wú)地鐵房源價(jià)格也要比有地鐵房源高.
-
根據(jù)擬合的回歸曲線,可以根據(jù)自己希望住的房間戶型大致找出一個(gè)房?jī)r(jià)的區(qū)間,比如75㎡的房屋無(wú)地鐵對(duì)應(yīng)價(jià)格約為3000,而有地鐵房屋對(duì)于價(jià)格約為5000,剛畢業(yè)的同學(xué)可以根據(jù)價(jià)格的變化來(lái)選取適合自己條件的房源
散點(diǎn)圖
擬合曲線
7.多維分析——同時(shí)考慮面積、價(jià)格和區(qū)域之間的關(guān)系
- 3號(hào)線和5號(hào)線沿線的房子最貴,主要分布在天河區(qū),且50%的房租都超過(guò)5000元每月
- 14號(hào)線沿線的房子主要分布在南沙區(qū),且絕大多數(shù)房?jī)r(jià)低于5000元/月
- 海珠區(qū)的房源地鐵主要為3號(hào)線和2號(hào)線,且房源數(shù)量多、價(jià)格也比天河、越秀略低
- 增城、花都基本沒(méi)有房源有地鐵經(jīng)過(guò),交通不便利
- 相較于中心城區(qū),黃埔區(qū)和荔灣區(qū)附近有地鐵的房源較少

分析結(jié)論
1.廣州房居客絕大多數(shù)的房租都在3000元以上,面積均為中等戶型,這個(gè)價(jià)位性價(jià)比屬于比較高的,剛畢業(yè)的學(xué)生可以考慮
2.天河區(qū)的房源數(shù)量最多,價(jià)格也是第二貴的。天河區(qū)擁有廣州的CBD,對(duì)于經(jīng)常需要加班的白領(lǐng)來(lái)說(shuō),在公司附近租房是個(gè)不錯(cuò)的選擇
3.有地鐵的房源占調(diào)查總體的80%以上,如果在中心城區(qū)的租房?jī)r(jià)格超過(guò)承受能力,可以沿著地鐵線路跨區(qū)找房,房源多,價(jià)格也相對(duì)低一點(diǎn)。
結(jié)語(yǔ)
快畢業(yè)了,希望這份分析報(bào)告能夠幫助想要留在廣州的同學(xué)都能找到自己喜歡的房子,在廣州扎下根來(lái)。
有紕漏的地方還希望大家能夠多多指正




