文|尋找不同的蜜蜂
購置新房,對于剛參加工作沒幾年的孩童來說,可謂壓力山大。特別是,在北上廣深,這種超級城市,買房簡直天方夜譚。
前一陣,刮起了一陣逃離北上廣的熱潮,逃離的理由不必贅述,你我都懂。或許,在新一線城市發(fā)展,也是一個(gè)不錯(cuò)選擇。畢竟留在這些城市發(fā)展,機(jī)會還是多很多。
但說實(shí)話,在新一線購置一套新房,似乎也不那么容易。有些人認(rèn)為,新房買不起,購置二手房,也是不錯(cuò)選擇。也有人認(rèn)為,二手房比新房價(jià)格還貴。
那么,到底二手房的價(jià)格如何?
通過爬蟲,爬取貝殼二手房網(wǎng),選取新一線的14個(gè)城市為研究對象,分別是杭州、青島、天津、南京、成都、重慶、長沙、武漢、鄭州、沈陽、東莞、西安、蘇州和無錫。
共記4萬+二手房信息,其中,每一個(gè)城市約3000條二手房信息(貝殼網(wǎng)上限100頁)。
1/ 信息的收集
爬蟲,作為有效的信息收集途徑之一,其靈活和實(shí)時(shí)性等特點(diǎn),已被大家高度認(rèn)可?;ヂ?lián)網(wǎng)時(shí)代,掌握爬蟲技能,是必不可少的技能之一。
python中,目前,有很多爬蟲模塊,比如:scrapy(更為高級結(jié)構(gòu)化的框架),re,request, beautifulsoup等。
本文繼續(xù)使用request+beautifulsoup模塊,爬取數(shù)據(jù),包括小區(qū)名字、區(qū)域、戶型、面積、總價(jià)格以及每平米價(jià)格。
1)Request負(fù)責(zé)爬取html源代碼至本地,需注意一點(diǎn):解析前,查看html是否完全被下載下來。如果發(fā)現(xiàn)只爬下部分內(nèi)容,可能存在反扒機(jī)制。
2)Beautifulsoup負(fù)責(zé)解析以上html,基于CSS選擇器,提取關(guān)心的信息,必要時(shí),需對數(shù)據(jù)進(jìn)行處理(如:去空格、去換行和去除不必要的字符串等等)。
3)有時(shí)網(wǎng)絡(luò)不是特別好,爬取過程中會出現(xiàn)中斷,如果不設(shè)置監(jiān)控點(diǎn),都不知道爬到哪里。建議使用format()設(shè)置頁面監(jiān)控點(diǎn)。

2/ 信息過濾
爬下的信息中,多少有一些,無效信息。篩選有用的信息,變得極為關(guān)鍵。
通過對新一線城市,4萬條的住房信息處理發(fā)現(xiàn),各個(gè)城市各區(qū)的房屋信息條數(shù)分布,極不均勻,一些地區(qū)的二手房信息有幾百條,甚至千條,但有些,卻只有幾條。
因此,以大于50條為過濾條件,統(tǒng)計(jì)并計(jì)算各城市各區(qū)的均值。
3/ 結(jié)果可視化
使用pyechart和excel對數(shù)據(jù)進(jìn)行可視化,其中,地圖可視化的代碼如下:
對于數(shù)據(jù)data,可以手動輸入,也可以導(dǎo)入CSV。然后,調(diào)整顯示范圍 [10000, 40000 ],很方便。其他參數(shù),可以保持默認(rèn)即可。
別忘記下載地圖數(shù)據(jù),命令行輸入 pip install echarts-china-provinces-pypkg和 pip install echarts-china-cities-pypkg。

對于excel的使用,主要是在上千的數(shù)據(jù)當(dāng)中,篩選出各城市各區(qū)對應(yīng)的數(shù)據(jù),并求均值,AVERAGEIF()函數(shù),不要錯(cuò)過。
4/ 結(jié)果分析
通過對以上4萬條房屋信息處理和分析,14個(gè)城市的二手房均價(jià)排名如下:
1)杭州, 39495元/平方米
2)南京, 33346元/平方米
3)青島, 28368元/平方米
4)天津, 27722元/平方米
5)蘇州, 23739元/平方米
6)東莞, 20801元/平方米
7)武漢, 20605元/平方米
8)成都, 17266元/平方米
9)西安, 16636元/平方米
10)鄭州, 16057元/平方米
11)無錫, 15245元/平方米
12)重慶, 14769元/平方米
13)長沙, 11736元/平方米
14)沈陽, 11378元/平方米

新一線城市,二手房的均價(jià)在11000~40000元/平方米之間,差值高達(dá)30000元/平方米??梢悦黠@得知,沿海地區(qū)的城市房價(jià)確實(shí)比中部城市高很多。

1.杭州
目前來說,杭州的二手房價(jià)格,在新一線城市排名第一。
杭州各區(qū)二手房均價(jià)/平方米分布,呈現(xiàn)不均勻態(tài)勢,最低余杭均價(jià)近30000元/平方米左右,最高上城均價(jià)直逼50000元/平方米。杭州50%的區(qū)域,均價(jià)都已經(jīng)超過40000元/平方米。

2.南京
南京各區(qū)二手房均價(jià)/平方米分布不均勻,最低浦口均價(jià)24000元/平方米,最高鼓樓46000元/平方米,差值一倍之多。

3.青島
青島各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。青島30%的地區(qū),均價(jià)突破30000元/平方米。

4.天津
天津各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢??梢悦黠@看出,和平的均價(jià)已經(jīng)突破50000元/平方米,比最低的武清高出3倍之多。天津75%的地區(qū),均價(jià)低于30000元/平方米。

5.蘇州
蘇州各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。除工業(yè)園區(qū)超出30000元/平方米,其他地區(qū)均價(jià)在19000~25000元/平方米。

6.東莞
東莞各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。最低均價(jià)大于15000元/平方米,最高的松山湖直逼30000元/平方米。

7.武漢
武漢各區(qū)的二手房均價(jià)分布極不均勻。均價(jià)超過20000元/平方米的區(qū)有6個(gè),占比60%。特別是,武昌均價(jià)已經(jīng)高達(dá)26000+元/平方米,比最低的黃陂多一倍。

8.成都
成都各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。4個(gè)區(qū)均值低于15000/平方米,4個(gè)區(qū)均值介于15000~20000/平方米,4個(gè)區(qū)大于20000元/平方米。

9.西安
西安各區(qū)二手房均價(jià)/平方米分布較為持平,14000~17000/平方米左右,除雁塔突破20000元/平方米。

10.鄭州
鄭州各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。除鄭州新區(qū)24000/平方米左右,其他地區(qū)均價(jià)在10000~17000/平方米左右。

11.無錫
無錫各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。但均價(jià)均低于20000元/平方米。濱湖與惠山差價(jià)5000元/平方米。

12.重慶
重慶各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。在14個(gè)新一線城市中,江津7400元/平方米,應(yīng)該是目前價(jià)格最低的地區(qū)了。

13.長沙
長沙各區(qū)二手房均價(jià)/平方米分布,呈現(xiàn)均勻態(tài)勢,各區(qū)均價(jià)低于13000元/平方米。

14.沈陽
沈陽各區(qū)二手房均價(jià)/平方米分布,也呈現(xiàn)不均勻態(tài)勢。最高和最低差價(jià)在8000元/平方米。

你在上述14個(gè)城市的哪一個(gè)城市,拼搏奮斗呢?
希望,對購置二手房的你,可以提供一些科學(xué)的參考。
(以上數(shù)據(jù),均爬取各城市對應(yīng)最大頁數(shù)(100頁)。4萬的數(shù)據(jù)量,可能不夠全面,結(jié)果僅供參考。)
相關(guān)文章:
1/ 學(xué)習(xí)python 115小時(shí)后,告訴想學(xué)爬蟲的你,別怕,爬蟲,沒那么難抓!
2/ 爬取60000個(gè)崗位,爬蟲告訴想要找或換工作的你,城市和行業(yè),該怎么選?