
文/恰恰天藍
1
我本人十分喜歡擺弄數(shù)據(jù),但從來沒有如『城市數(shù)據(jù)團』這么深入過,原來數(shù)據(jù)是如此好玩有趣,且有意義。
一路讀來,還算輕松有趣,寫作的口吻有很大的戲謔成分,且排版編輯,數(shù)據(jù)復(fù)核處有些許錯誤(如P116),似乎極不嚴謹,給予本書不好的印象,但讀到末尾,作者對此情節(jié)有所交代,原來是被逼的!
因此我對書中的結(jié)論大多數(shù)呈懷疑態(tài)度,這其中夾雜著多種因素,姑且不去考慮我的個人認知問題,因其書中數(shù)據(jù)來源,指標(biāo)設(shè)計,推理過程等的復(fù)雜性,有些結(jié)論我還是選擇不能完全認同。
畢竟,城市數(shù)據(jù)團是一幫上班族和在校生的數(shù)據(jù)愛好者聚在一起利用業(yè)余時間來做的,加之?dāng)?shù)據(jù)的來源他們無從把握,所以其完整性、可靠性必然大打折扣。
難能可貴的是,一般年輕人無功利的做這件事,我的鼓勵多過苛責(zé),這是一撥有責(zé)任感無私的人。用進化的眼光看,他們會學(xué)習(xí)成長,會迭代更新,定會越來越好。同時,我也能看到業(yè)余社團(非技術(shù)不專業(yè))的參與社會管理的力量,這迫使ZF與民間更多、更好地互動和良性溝通,其實ZF也不要怕民眾(稱蠻流),民眾也不要怕ZF(陰謀陷害),隨著社會的發(fā)展,公共事務(wù)的透明化是一個趨勢,一件事情好與不好,信與不信,不會再是『至于你們信不信,我反正信了』。
此路不通,會開辟新路。分享傳遞,引發(fā)關(guān)注、討論,參與精進。
城市數(shù)據(jù)團好樣的!
2
數(shù)據(jù)分析和文章創(chuàng)作的方法
一、數(shù)據(jù)分析和寫作流程
首先,選擇大致的研究方向。綜合考慮研究需求、時效性、趣味性和可行性。
第二,列出可能用到的數(shù)據(jù)和研究方法,并通過各種渠道獲取數(shù)據(jù)。接著,對數(shù)據(jù)進行預(yù)處理。包括數(shù)據(jù)清新、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等。
第三,對總體情況進行簡單統(tǒng)計,發(fā)掘和調(diào)整選題。目的是了解每一個數(shù)據(jù)字段的基本屬性、頻率分布、隨著時間或地域的變化趨勢,以及尋找多個字段間可能存在的交互影響,從而得到一些較為具體的、值得進一步研究的選題。逐一分析每個題目,進行取舍。
第四,梳理邏輯,精煉結(jié)論,撰寫文章。注意,文章撰寫和數(shù)據(jù)分析就相輔相成、同時進行的。
二、數(shù)據(jù)類型(按數(shù)據(jù)來源)和獲取方式
1、權(quán)威機構(gòu)公開發(fā)布的數(shù)據(jù)。一般可從該機構(gòu)網(wǎng)站或特定渠道獲取;
2、互聯(lián)網(wǎng)開飯數(shù)據(jù)??梢酝ㄟ^手動下載或爬蟲爬?。?/p>
3、企業(yè)級數(shù)據(jù)。與企業(yè)合作獲??;
4、調(diào)研數(shù)據(jù)。發(fā)起活動,向特定群體收集。
三、主要分析工具
Python;R、SAS、stata、matlab;arcGIS;Excel等。
四、分析方法
1、簡單數(shù)理統(tǒng)計:數(shù)據(jù)標(biāo)準(zhǔn)化處理、平均值、分位數(shù)、方差、指標(biāo)在時間和空間上的變化趨勢比較等。
2、現(xiàn)有分析模型的應(yīng)用:t-test、ANOVA、Correlation、Regression、Spatial Regression、PCA、Cluster、Decision Tree、SVM、Neural Network等。
3、自己設(shè)計指標(biāo)。目的是幫助讀者迅速理解文章想要表達的類容。
4、現(xiàn)有數(shù)學(xué)模型的改進或新模型的建立。
5、數(shù)據(jù)可視化。
3
精進之路(精華在附錄)
一、最最重要的始終是熱情和創(chuàng)意。
好的點子不常有,而能夠表征這個點子的數(shù)據(jù)、分析這些數(shù)據(jù)的工具則比比皆是。
如果,我們有著用數(shù)據(jù)探究某個問題的愿望、有著基本的數(shù)據(jù)處理技能,那么就可以行動起來。
在數(shù)據(jù)分析過程中,思考問題、收集數(shù)據(jù)、整理分析、提出新問題、學(xué)習(xí)型技能等多個階段總是交替出現(xiàn)的。
1、最最需要的,是一顆想要通過數(shù)據(jù)認識世界的心;
2、此次,是一個創(chuàng)造性的腦洞;
3、然后,是嚴謹?shù)倪壿嫞?/p>
4、最后,才是數(shù)據(jù)和技術(shù)。
二、金句(結(jié)論)觸發(fā)
1、什么都不懂就神經(jīng)網(wǎng)絡(luò),什么都不會就遺傳算法。
2、逛商場買買買所花掉的,始終只是小錢而已。真正能刷卡消費的,仍然是男人,更勝者是商場里看不到的老男人。
3、讓更多的人聚集在一起,是人類發(fā)明城市的最重要的意義。
4、這是一個看臉的世界,丑,就得多學(xué)習(xí)。
5、我們這個時代早已不可逆轉(zhuǎn)地走向二次元(我的理解:動漫和游戲,也就是虛擬)化了。
6、學(xué)區(qū)房,是一個徹頭徹尾的市場問題。
4
經(jīng)典案例?
一、區(qū)域性適齡勞動人口數(shù)據(jù)決定城市興衰,大城市的抽血功能。
對于『年輕人總在猶豫,回歸家鄉(xiāng)愜意小城鎮(zhèn),還是奔赴(北上廣深類)大都市』的結(jié)論:假如你最終選擇留在一個生活安逸風(fēng)景如畫的小城鎮(zhèn)上,你也許會幸福地過完一生;但在你的子女到了你這個年紀(jì)的時候,很可能他們有且只有一個選擇,那就是奔赴大城市。
二、餐館更容易活下來的選址條件(條件設(shè)置):
1、很多人都住(常住人口多)在這里;
2、很多人都在這里工作(就業(yè)人口多);
3、交通很方便;
4、盡量保證這個地區(qū)至少有一部分人愛吃的(多樣性高);
5、周邊現(xiàn)有的類似餐館還不太多(競爭性弱)。
三、快捷酒店的選址(瞬間最優(yōu)解罷了):
1、酒店周邊有常住人口——探親訪友的目標(biāo)源;
2、酒店周邊有企業(yè)客戶——商務(wù)出行和部分員工親友訪客的目標(biāo)源;
3、酒店附近的城市交通——方便的交通條件會擴大前兩個要數(shù)的輻射能力(貴陽PL選址幾何?)。
四、我們注定(大概率)過平庸的一生,如要逆襲建議(強者越強,弱者越弱):
1、需要找到那些穩(wěn)居在金字塔頂尖的少數(shù)派,并和他們一起競爭;
2、需要找到處在風(fēng)口浪尖的舞臺,并承受昂貴的成本;
3、需要非常努力,還要更早努力且一直努力,否則可能一個閃失就再也沒有任何機會了。
五、房價關(guān)系圖
1、好工作機會越多的地方,房價越貴;
2、高級餐廳越多的地方,房價越貴;
3、所有的『學(xué)區(qū)房』單價都高于全區(qū)房單價;
4、租售比越遠離市中心越離散,越靠近市中心則越收斂;中心城區(qū)的房屋價格中包含的功能性價值更強,郊區(qū)的房產(chǎn)更依賴投資性(或者叫預(yù)期性)價值。
5、國際經(jīng)驗:少于200個月(17年)能收回投資,說明該地區(qū)有較高的投資價值;而高于300個月(25年),則表示該地區(qū)有潛在的房地產(chǎn)泡沫風(fēng)險。(2015年4月,北京的全市售租比中位數(shù)是555個月,即46年;上海522個月,43.5年;我看到網(wǎng)上2018年4 月最新數(shù)據(jù)是上海、深圳、廣州、北京四座城市,分別需要54、52、50、49.5年,那么按某些人的推論,租金是否要再漲2-3倍呢?)