《數(shù)據(jù)思維》-精華解讀

薦 語(yǔ)

互聯(lián)網(wǎng)也已成熟,物聯(lián)網(wǎng)正在搭建。

每個(gè)人都生產(chǎn)數(shù)據(jù),卻只是少數(shù)人擁有玩轉(zhuǎn)它的能力。

憑借數(shù)據(jù),內(nèi)行率先開啟了先知視角,而我們卻連北都摸不著!

從廣告的精準(zhǔn)投放,到預(yù)測(cè)并影響美國(guó)總統(tǒng)大選,數(shù)據(jù)為何如此神奇?

本期作者光臨,王漢生教授攜《數(shù)據(jù)思維》,帶你入門!

作 者 簡(jiǎn) 介

王漢生

北京大學(xué)光華管理學(xué)院商務(wù)統(tǒng)計(jì)與經(jīng)濟(jì)計(jì)量系教授、博導(dǎo)、系主任,北京大學(xué)商務(wù)智能研究中心主任,微信公眾號(hào)“狗熊會(huì)”創(chuàng)始人。美國(guó)統(tǒng)計(jì)學(xué)會(huì)Fellow(2014),國(guó)家杰出青年基金獲得者(2016),美國(guó)統(tǒng)計(jì)學(xué)會(huì)會(huì)刊《JASA》、美國(guó)商業(yè)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)雜志《JBES》、泛華統(tǒng)計(jì)學(xué)會(huì)會(huì)刊《SINICA》、《中國(guó)科學(xué):數(shù)學(xué)》等多個(gè)國(guó)際學(xué)術(shù)期刊的編委(Associate Editor)。

精 華 解 讀

以下內(nèi)容為《數(shù)據(jù)思維》一書精華解讀,供廣大書友們學(xué)習(xí)參考,歡迎分享,未經(jīng)允許不可用作商業(yè)用途。

目 錄

一、樸素的數(shù)據(jù)價(jià)值觀

二、大數(shù)據(jù)到底是什么

三、人人應(yīng)有數(shù)據(jù)思維

四、各種數(shù)據(jù)分析方法

正 文

引擎再?gòu)?qiáng)大的車,碰到摸不著北的司機(jī),照樣開不到目的地。大數(shù)據(jù)也一樣,如果不具備將業(yè)務(wù)問題轉(zhuǎn)變?yōu)閿?shù)據(jù)可分析問題的數(shù)據(jù)思維,再怎么神話大數(shù)據(jù)都無(wú)法創(chuàng)造商業(yè)價(jià)值。

大數(shù)據(jù)很火,真正懂行的少之又少,王漢生教授是其中一位。在聒噪的新媒體語(yǔ)境下,王教授另辟蹊徑,以誠(chéng)懇、求真的學(xué)術(shù)氣質(zhì),幫助我們?cè)诠ぷ髋c生活中養(yǎng)成數(shù)據(jù)思維。

一、樸素的數(shù)據(jù)價(jià)值觀

1.數(shù)據(jù)的價(jià)值

a.什么是數(shù)據(jù)

凡是可以被電子化記錄的都是數(shù)據(jù)。

這不局限于數(shù)字,還包括語(yǔ)音輸入的聲音,數(shù)碼相機(jī)拍下的照片,手機(jī)錄制的視頻等被電子化記錄的內(nèi)容。該定義看似狹隘,但是能幫助我們更好的理解數(shù)據(jù)產(chǎn)業(yè)的變遷,培養(yǎng)數(shù)據(jù)的時(shí)代觀。

b.數(shù)據(jù)有什么用

數(shù)據(jù)之于個(gè)人的價(jià)值,一定關(guān)乎自身業(yè)務(wù)的核心訴求。只有說(shuō)清楚了數(shù)據(jù)的商業(yè)價(jià)值,客戶才容易為數(shù)據(jù)買單,數(shù)據(jù)企業(yè)才容易產(chǎn)生收入,數(shù)據(jù)產(chǎn)業(yè)中才不會(huì)有那么多的困惑。那么,數(shù)據(jù)的價(jià)值是什么呢?

我們可以從收入、支出、風(fēng)險(xiǎn)三個(gè)方面看待這個(gè)問題:

●收入。最典型的是百度付費(fèi)搜索廣告,它通過對(duì)用戶搜索數(shù)據(jù)的深入分析,進(jìn)行精準(zhǔn)匹配,為廣告主帶去一大波流量,它所創(chuàng)造的收入增長(zhǎng)就是數(shù)據(jù)的價(jià)值。

●支出。根據(jù)物聯(lián)網(wǎng)技術(shù)采集到的信息,電視生產(chǎn)商發(fā)現(xiàn)某一款電視機(jī)的用戶中,僅1%的用戶還在使用老式的VGA視頻接口。于是,他們決定取消這一接口設(shè)置,該決定為企業(yè)每年節(jié)省了上億元成本。這也是數(shù)據(jù)分析帶來(lái)的價(jià)值。

●風(fēng)險(xiǎn)。很多商業(yè)銀行都有網(wǎng)上申請(qǐng)系統(tǒng),風(fēng)險(xiǎn)普遍高于線下面簽。數(shù)據(jù)分析可以幫助它們更加準(zhǔn)確地區(qū)分哪些線上申請(qǐng)者是好人,哪些是壞人。這是以降低商業(yè)風(fēng)險(xiǎn)的方式,數(shù)據(jù)為公司所帶來(lái)的間接價(jià)值。

2.什么是數(shù)據(jù)思維

為了解釋清楚本書中最重要的概念“數(shù)據(jù)思維”,這里不得不引入一個(gè)統(tǒng)計(jì)學(xué)專有名詞——回歸分析,即確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。

古人云:以道馭術(shù),以術(shù)驅(qū)道。在“道”的層面上,回歸分析是一種思維方式,在它的指導(dǎo)下,我們可以把“業(yè)務(wù)問題”定義成“數(shù)據(jù)可分析問題”。而在“術(shù)”的層面,回歸分析又是一種可以運(yùn)用的數(shù)據(jù)分析工具,這在本解讀最后一章會(huì)介紹。

什么樣的問題可以被看作數(shù)據(jù)可分析問題?你需要找到兩種變量:

●因變量Y:因?yàn)閯e人的改變而改變的變量,這是業(yè)務(wù)的核心訴求。

●自變量X:用來(lái)解釋因變量Y的相關(guān)變量,通俗點(diǎn)說(shuō),自變量X的改變,影響了因變量Y的變化。X表現(xiàn)了數(shù)據(jù)分析者對(duì)業(yè)務(wù)的洞見。

案 例

假設(shè)A君向你借一萬(wàn)元錢,你也許會(huì)從A君平時(shí)的為人開始分析,順便考慮你倆關(guān)系夠不夠鐵、是否簽下借條、A君的家境情況等等各種因素,依此衡量A君還錢的可能性。此處A君還錢的可能性就是因變量Y;而為人、關(guān)系、借條、家境都是自變量X。

數(shù)據(jù)思維是把“業(yè)務(wù)問題”定義成“數(shù)據(jù)可分析問題”,具體的做法就是在亂成一鍋粥的業(yè)務(wù)問題中,準(zhǔn)確定位業(yè)務(wù)的核心訴求(因變量Y),并找到影響核心訴求的相關(guān)因素(自變量X),然后利用各種數(shù)據(jù)分析工具進(jìn)一步研究。

下一章我們著重解決一個(gè)問題,為什么擁有數(shù)據(jù)思維如此重要?

二、大數(shù)據(jù)到底是什么

在不了解數(shù)據(jù)分析的情況下,我們很容易神話大數(shù)據(jù),認(rèn)為它擁有多么神奇的魔力。實(shí)際上,大數(shù)據(jù)沒那么神秘,它與許多人接觸過的統(tǒng)計(jì)學(xué)有著千絲萬(wàn)縷的關(guān)系。

1.大數(shù)據(jù)和統(tǒng)計(jì)學(xué)的關(guān)系

本期節(jié)目中,王漢生教授提到,大數(shù)據(jù)和統(tǒng)計(jì)學(xué)至少有兩方面的關(guān)系:

a.統(tǒng)計(jì)學(xué)關(guān)注的核心,是對(duì)數(shù)據(jù)的分析建模,并通過建模對(duì)業(yè)務(wù)不確定性的刻畫,這對(duì)大數(shù)據(jù)的貢獻(xiàn)巨大。

b.大數(shù)據(jù)并不能代替抽樣,相反,越是大數(shù)據(jù)抽樣越重要。

2.大數(shù)據(jù)的準(zhǔn)確度如何

“預(yù)測(cè)不準(zhǔn)是常態(tài),預(yù)測(cè)準(zhǔn)確是變態(tài)。”王教授這句話,戳破了許多人對(duì)預(yù)測(cè)抱有的美好期待。

為什么對(duì)于準(zhǔn)確度那么絕望呢?科學(xué)本質(zhì)使然。統(tǒng)計(jì)學(xué)研究中包括了大量的相關(guān)關(guān)系,其中只有極小一部分非常稀有的因果關(guān)系,但是因果關(guān)系的重要性依舊無(wú)法取代。

●相關(guān)關(guān)系:客觀現(xiàn)象存在的一種非確定的相互依存關(guān)系。例子:公雞叫,太陽(yáng)升起來(lái)。

●因果關(guān)系:第一個(gè)事件(因)和第二個(gè)事件(果)之間的作用關(guān)系,其中后一事件被認(rèn)為是前一事件的結(jié)果。例子:按下開機(jī)鍵,電腦亮了。

我們經(jīng)常會(huì)混淆這一對(duì)概念,甚至有些時(shí)候連相關(guān)關(guān)系都不算的事件A和事件B,由于它們常相伴發(fā)生,我們便迷信地以為兩者具有因果關(guān)系,鬧下不少的笑話。

因此,鑒別相關(guān)關(guān)系和因果關(guān)系這一對(duì)概念,不僅是我們了解大數(shù)據(jù)的金鑰匙,也是培養(yǎng)科學(xué)素養(yǎng)——對(duì)偽科學(xué)說(shuō)不——所要邁出的關(guān)鍵一步!

三、人人應(yīng)有數(shù)據(jù)思維

數(shù)據(jù)思維是一種必備的素養(yǎng)。因?yàn)樯钤谛畔r(shí)代的我們,或多或少都會(huì)和數(shù)據(jù)扯上點(diǎn)關(guān)系,不具備數(shù)據(jù)思維,我們就會(huì)像不懂經(jīng)濟(jì)學(xué)知識(shí)炒股的人一樣,容易被征智商稅啊!

1.提高溝通效率

我們?cè)诠ぷ髦?,?jīng)常遇到這樣的情況:數(shù)據(jù)專家說(shuō)的是技術(shù)語(yǔ)言,需求部門說(shuō)的是業(yè)務(wù)問題(其中包括數(shù)據(jù)可分析的和不可分析的),雙方的溝通總是難以順利進(jìn)行。

要解決這個(gè)問題,這不僅需要專業(yè)人士擺脫自己知識(shí)的詛咒,也需要需求部門克服對(duì)于數(shù)據(jù)的恐懼感,公司內(nèi)部自上而下都有必要培養(yǎng)數(shù)據(jù)思維。決策者要認(rèn)識(shí)到哪些事與數(shù)據(jù)相關(guān),需求部門應(yīng)該有將核心訴求講清楚的能力。

對(duì)此,樊老師生動(dòng)地形容道,具備數(shù)據(jù)思維就是“張口就能點(diǎn)出回鍋肉”。

這可以大大提高溝通效率,使數(shù)據(jù)分析的價(jià)值最大化!

2.抓住商業(yè)機(jī)會(huì)

另一方面,數(shù)據(jù)思維對(duì)于創(chuàng)業(yè)者來(lái)說(shuō)也可能有幫助,尤其在那些與數(shù)據(jù)有著緊密聯(lián)系的創(chuàng)業(yè)項(xiàng)目中。具備數(shù)據(jù)思維,能幫助創(chuàng)業(yè)者抓住商業(yè)機(jī)會(huì),但這需要經(jīng)過以下三個(gè)步驟:

a.我所在的創(chuàng)業(yè)方向,數(shù)據(jù)是否能幫助我?

b.如果數(shù)據(jù)很重要,將業(yè)務(wù)中的因變量Y和自變量X梳理清楚。

c.在戰(zhàn)略層面上,保證Y和X的高質(zhì)量供給、長(zhǎng)時(shí)間積累。

3.生活中的數(shù)據(jù)思維

假如一個(gè)人既不是創(chuàng)業(yè)者,所涉及業(yè)務(wù)問題又和數(shù)據(jù)分析八竿子打不著,培養(yǎng)數(shù)據(jù)思維又有什么用呢?事實(shí)上,生活中的大部分小事,數(shù)據(jù)思維都可以給你啟發(fā),關(guān)鍵看你怎么用?

首先,培養(yǎng)數(shù)據(jù)思維幫你養(yǎng)成一種思考有的放矢的習(xí)慣:分析的目的是什么?核心訴求是什么?因變量Y是什么?

其次,搞清楚目的后,你就能將注意力聚焦在相關(guān)的自變量X上,就不會(huì)陷入“放眼望去都是重點(diǎn)”的迷亂狀態(tài)中。

最后,你可以嘗試最簡(jiǎn)單的分析,專業(yè)的建模暫且不說(shuō),至少可以區(qū)分一下哪些是相關(guān)關(guān)系、哪些是因果關(guān)系。

四、各種數(shù)據(jù)分析方法

讀到這里,你是否已經(jīng)對(duì)數(shù)據(jù)分析產(chǎn)生興趣了呢?本書中還介紹了幾種常見的數(shù)據(jù)分析工具,感興趣的話可以研究一下,然后試著用它們解決數(shù)據(jù)可分析的問題。

1.回歸分析

在“術(shù)”的層面,回歸分析就是各種各樣的統(tǒng)計(jì)學(xué)模型。它主要有五種類型:線性回歸、0-1回歸、定序回歸、計(jì)數(shù)回歸以及生存回歸。

●線性回歸,更嚴(yán)格地說(shuō)是普通線性回歸,其主要特征是:因變量Y必須是連續(xù)型數(shù)據(jù),而對(duì)解釋性變量X沒有太多要求。在數(shù)據(jù)世界中,線性回歸可以應(yīng)用于股票投資、客戶終身價(jià)值、醫(yī)療健康等領(lǐng)域。

●0-1回歸就是因變量Y是0-1型數(shù)據(jù)(只有兩個(gè)可能取值)的回歸分析模型。例如,性別只有“男”或“女”。購(gòu)買決策只有“買”或“不買”。癌癥診斷只有“得癌癥”或“不得癌癥”。0-1回歸可以應(yīng)用于互聯(lián)網(wǎng)征信、個(gè)性化推薦、社交好友推薦等。

●定序回歸就是因變量Y為定序數(shù)據(jù)(關(guān)乎順序的數(shù)據(jù))的回歸分析模型。舉個(gè)例子,現(xiàn)在請(qǐng)各位書友為本期作者光臨打分,根據(jù)喜好程度:1表示非常喜歡,2表示有點(diǎn)喜歡,3表示感覺一般,4表示有點(diǎn)不喜歡,5表示非常不喜歡。這就是一種定序數(shù)據(jù)。定序回歸常見的應(yīng)用場(chǎng)景有:電影的打分評(píng)級(jí)(1~5星);電商產(chǎn)品的滿意度評(píng)分(1~5星)等。

●計(jì)數(shù)回歸。如果因變量Y是一個(gè)計(jì)數(shù)數(shù)據(jù)(非負(fù)整數(shù)),那么對(duì)應(yīng)的回歸分析模型就是計(jì)數(shù)回歸。計(jì)數(shù)回歸常被應(yīng)用于:客戶關(guān)系管理中的RFM模型,即一定時(shí)間內(nèi)客戶到訪的次數(shù);二胎政策研究中,一對(duì)夫妻選擇生育孩子的數(shù)量等。

●生存回歸是生存數(shù)據(jù)回歸的簡(jiǎn)稱,即因變量Y為生存數(shù)據(jù)(刻畫一個(gè)現(xiàn)象或個(gè)體存續(xù)生存了多久)的回歸分析模型,例如人的壽命、電子產(chǎn)品使用年限、創(chuàng)業(yè)公司存續(xù)時(shí)間。

2.數(shù)據(jù)可視化

最基礎(chǔ)的數(shù)據(jù)可視化方法就是統(tǒng)計(jì)圖,而一張好的統(tǒng)計(jì)圖應(yīng)該滿足四個(gè)標(biāo)準(zhǔn):準(zhǔn)確、有效、簡(jiǎn)潔、美觀。常見的統(tǒng)計(jì)圖有:柱狀圖、堆積柱狀圖、餅圖、直方圖、折線圖、散點(diǎn)圖、箱線圖、莖葉圖等。

3.機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)代表著一大類優(yōu)秀的數(shù)據(jù)模型分析方法,是立志成為數(shù)據(jù)科學(xué)家的書友們的必修課。它主要涉及的方法有:樸素貝葉斯、決策樹(含隨機(jī)森林)、神經(jīng)網(wǎng)絡(luò)(含深度學(xué)習(xí))、K均值聚類。

4.非結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的,這是一個(gè)相對(duì)的、主觀的概念。當(dāng)然,其中也有一些達(dá)成了共識(shí),公認(rèn)的非結(jié)構(gòu)化數(shù)據(jù)包括中文文本、數(shù)據(jù)結(jié)構(gòu)、圖像等。

案 例

非結(jié)構(gòu)化的文本數(shù)據(jù),并不表示我們不能對(duì)它進(jìn)行數(shù)據(jù)分析。以《倚天屠龍記》為例,張無(wú)忌到底最愛誰(shuí),是趙敏嗎,是周芷若嗎,還是殷離或者小昭?本書利用數(shù)據(jù)分析的方法,得到了答案!

第一步,把小說(shuō)的主要人物和他們的稱謂提取出來(lái)。接下來(lái),要確定分析單位,這里取的是自然段。那么張無(wú)忌愛誰(shuí)這樣的問題,到底怎么定義為數(shù)據(jù)可分析問題呢?本書中從人物出場(chǎng)頻次、出場(chǎng)時(shí)間、親密程度等不同角度進(jìn)行分析,這里簡(jiǎn)單說(shuō)一下最重要的親密程度分析,這是通過她們與張無(wú)忌出現(xiàn)在同一自然段的次數(shù)(同時(shí)出場(chǎng))刻畫的:

所謂日久見真情,從這一個(gè)側(cè)面看張無(wú)忌與趙敏親密接觸的機(jī)會(huì)最多,他最有可能愛上的是趙敏。

說(shuō)明:本案例詳情,可從微信公眾號(hào)狗熊會(huì)(ID:CluBear)獲得。

結(jié)語(yǔ)

這是一本可以提升認(rèn)知的書籍,沒有帶給你太多的方法論,也不能讓你的生活立即發(fā)生改變,甚至你在聽書的時(shí)候還會(huì)感到有些費(fèi)力。但是,偶爾走出自己的舒適區(qū),嘗試?yán)斫鈴那芭龆疾桓遗龅睦砜茊栴},然后驚喜地發(fā)現(xiàn)“哦!原來(lái)是這樣??!”這對(duì)于我們來(lái)說(shuō)何嘗不是一種進(jìn)步呢?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容