《數(shù)據(jù)不說謊》,『一本正經(jīng)的胡說八道』

文/恰恰天藍


1

我本人十分喜歡擺弄數(shù)據(jù),但從來沒有如『城市數(shù)據(jù)團』這么深入過,原來數(shù)據(jù)是如此好玩有趣,且有意義。

一路讀來,還算輕松有趣,寫作的口吻有很大的戲謔成分,且排版編輯,數(shù)據(jù)復(fù)核處有些許錯誤(如P116),似乎極不嚴謹,給予本書不好的印象,但讀到末尾,作者對此情節(jié)有所交代,原來是被逼的!

因此我對書中的結(jié)論大多數(shù)呈懷疑態(tài)度,這其中夾雜著多種因素,姑且不去考慮我的個人認知問題,因其書中數(shù)據(jù)來源,指標(biāo)設(shè)計,推理過程等的復(fù)雜性,有些結(jié)論我還是選擇不能完全認同。

畢竟,城市數(shù)據(jù)團是一幫上班族和在校生的數(shù)據(jù)愛好者聚在一起利用業(yè)余時間來做的,加之?dāng)?shù)據(jù)的來源他們無從把握,所以其完整性、可靠性必然大打折扣。

難能可貴的是,一般年輕人無功利的做這件事,我的鼓勵多過苛責(zé),這是一撥有責(zé)任感無私的人。用進化的眼光看,他們會學(xué)習(xí)成長,會迭代更新,定會越來越好。同時,我也能看到業(yè)余社團(非技術(shù)不專業(yè))的參與社會管理的力量,這迫使ZF與民間更多、更好地互動和良性溝通,其實ZF也不要怕民眾(稱蠻流),民眾也不要怕ZF(陰謀陷害),隨著社會的發(fā)展,公共事務(wù)的透明化是一個趨勢,一件事情好與不好,信與不信,不會再是『至于你們信不信,我反正信了』。

此路不通,會開辟新路。分享傳遞,引發(fā)關(guān)注、討論,參與精進。

城市數(shù)據(jù)團好樣的!


2

數(shù)據(jù)分析和文章創(chuàng)作的方法

一、數(shù)據(jù)分析和寫作流程

首先,選擇大致的研究方向。綜合考慮研究需求、時效性趣味性可行性。

第二,列出可能用到的數(shù)據(jù)和研究方法,并通過各種渠道獲取數(shù)據(jù)。接著,對數(shù)據(jù)進行預(yù)處理。包括數(shù)據(jù)清新、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約等。

第三,對總體情況進行簡單統(tǒng)計,發(fā)掘和調(diào)整選題。目的是了解每一個數(shù)據(jù)字段的基本屬性、頻率分布、隨著時間或地域的變化趨勢,以及尋找多個字段間可能存在的交互影響,從而得到一些較為具體的、值得進一步研究的選題。逐一分析每個題目,進行取舍。

第四,梳理邏輯,精煉結(jié)論,撰寫文章。注意,文章撰寫和數(shù)據(jù)分析就相輔相成、同時進行的。

二、數(shù)據(jù)類型(按數(shù)據(jù)來源)和獲取方式

1、權(quán)威機構(gòu)公開發(fā)布的數(shù)據(jù)。一般可從該機構(gòu)網(wǎng)站或特定渠道獲取;

2、互聯(lián)網(wǎng)開飯數(shù)據(jù)??梢酝ㄟ^手動下載或爬蟲爬?。?/p>

3、企業(yè)級數(shù)據(jù)。與企業(yè)合作獲??;

4、調(diào)研數(shù)據(jù)。發(fā)起活動,向特定群體收集。

三、主要分析工具

Python;R、SAS、stata、matlab;arcGIS;Excel等。

四、分析方法

1、簡單數(shù)理統(tǒng)計:數(shù)據(jù)標(biāo)準(zhǔn)化處理、平均值、分位數(shù)、方差、指標(biāo)在時間和空間上的變化趨勢比較等。

2、現(xiàn)有分析模型的應(yīng)用:t-test、ANOVA、Correlation、Regression、Spatial Regression、PCA、Cluster、Decision Tree、SVM、Neural Network等。

3、自己設(shè)計指標(biāo)。目的是幫助讀者迅速理解文章想要表達的類容。

4、現(xiàn)有數(shù)學(xué)模型的改進或新模型的建立。

5、數(shù)據(jù)可視化。


3

精進之路(精華在附錄)

一、最最重要的始終是熱情和創(chuàng)意。

好的點子不常有,而能夠表征這個點子的數(shù)據(jù)、分析這些數(shù)據(jù)的工具則比比皆是。

如果,我們有著用數(shù)據(jù)探究某個問題的愿望、有著基本的數(shù)據(jù)處理技能,那么就可以行動起來。

在數(shù)據(jù)分析過程中,思考問題、收集數(shù)據(jù)、整理分析、提出新問題、學(xué)習(xí)型技能等多個階段總是交替出現(xiàn)的。

1、最最需要的,是一顆想要通過數(shù)據(jù)認識世界的心;

2、此次,是一個創(chuàng)造性的腦洞;

3、然后,是嚴謹?shù)倪壿嫞?/p>

4、最后,才是數(shù)據(jù)和技術(shù)。

二、金句(結(jié)論)觸發(fā)

1、什么都不懂就神經(jīng)網(wǎng)絡(luò),什么都不會就遺傳算法。

2、逛商場買買買所花掉的,始終只是小錢而已。真正能刷卡消費的,仍然是男人,更勝者是商場里看不到的老男人。

3、讓更多的人聚集在一起,是人類發(fā)明城市的最重要的意義。

4、這是一個看臉的世界,丑,就得多學(xué)習(xí)。

5、我們這個時代早已不可逆轉(zhuǎn)地走向二次元(我的理解:動漫和游戲,也就是虛擬)化了。

6、學(xué)區(qū)房,是一個徹頭徹尾的市場問題。


4

經(jīng)典案例?

一、區(qū)域性適齡勞動人口數(shù)據(jù)決定城市興衰,大城市的抽血功能。

對于『年輕人總在猶豫,回歸家鄉(xiāng)愜意小城鎮(zhèn),還是奔赴(北上廣深類)大都市』的結(jié)論:假如你最終選擇留在一個生活安逸風(fēng)景如畫的小城鎮(zhèn)上,你也許會幸福地過完一生;但在你的子女到了你這個年紀(jì)的時候,很可能他們有且只有一個選擇,那就是奔赴大城市。

二、餐館更容易活下來的選址條件(條件設(shè)置):

1、很多人都住(常住人口多)在這里;

2、很多人都在這里工作(就業(yè)人口多);

3、交通很方便;

4、盡量保證這個地區(qū)至少有一部分人愛吃的(多樣性高);

5、周邊現(xiàn)有的類似餐館還不太多(競爭性弱)。

三、快捷酒店的選址(瞬間最優(yōu)解罷了):

1、酒店周邊有常住人口——探親訪友的目標(biāo)源;

2、酒店周邊有企業(yè)客戶——商務(wù)出行和部分員工親友訪客的目標(biāo)源;

3、酒店附近的城市交通——方便的交通條件會擴大前兩個要數(shù)的輻射能力(貴陽PL選址幾何?)。

四、我們注定(大概率)過平庸的一生,如要逆襲建議(強者越強,弱者越弱):

1、需要找到那些穩(wěn)居在金字塔頂尖的少數(shù)派,并和他們一起競爭;

2、需要找到處在風(fēng)口浪尖的舞臺,并承受昂貴的成本;

3、需要非常努力,還要更早努力且一直努力,否則可能一個閃失就再也沒有任何機會了。

五、房價關(guān)系圖

1、好工作機會越多的地方,房價越貴;

2、高級餐廳越多的地方,房價越貴;

3、所有的『學(xué)區(qū)房』單價都高于全區(qū)房單價;

4、租售比越遠離市中心越離散,越靠近市中心則越收斂;中心城區(qū)的房屋價格中包含的功能性價值更強,郊區(qū)的房產(chǎn)更依賴投資性(或者叫預(yù)期性)價值。

5、國際經(jīng)驗:少于200個月(17年)能收回投資,說明該地區(qū)有較高的投資價值;而高于300個月(25年),則表示該地區(qū)有潛在的房地產(chǎn)泡沫風(fēng)險。(2015年4月,北京的全市售租比中位數(shù)是555個月,即46年;上海522個月,43.5年;我看到網(wǎng)上2018年4 月最新數(shù)據(jù)是上海、深圳、廣州、北京四座城市,分別需要54、52、50、49.5年,那么按某些人的推論,租金是否要再漲2-3倍呢?)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容