
繼上月到新加坡管理大學(xué)(SMU)參加 Fintech & Innovation 的課程后,上周重返校園行動(dòng)再下一城,到新加坡國(guó)立大學(xué)(NUS) 參加一個(gè)為期五天的Leading with Big Data Analytics & Machine Learning 課程。
跟上次一樣,這課程也得到新加坡政府90%資助,再加上可以動(dòng)用五百元的 Skills Future Credit, 結(jié)果原來(lái)五千多新元的課程我只需付二百多元便可以了。算是狠狠的享受一下新加坡的國(guó)民福利!
雖然都是大學(xué)課程,但兩者在多方面都有明顯不同。SMU 的課程是外包給培訓(xùn)公司, 導(dǎo)師主要是 practitioners 而不是大學(xué)教授。組織上也比較自由松散,人數(shù)很少,課程比較像workshop, 小組討論和活動(dòng)比較多,學(xué)員之間和講師都可以作較深入的交流。
NUS 的課程是由NUS Business School 主辦的, 有較強(qiáng)的行政后勤支援,所以辦得比較高規(guī)格和大規(guī)模,對(duì)學(xué)員的要求也較高。學(xué)員在上課之前已收到通知,要登入大學(xué)的網(wǎng)站提供個(gè)人資料,還有大量的課前閱讀,都是一些著名機(jī)構(gòu)如Harvard Business Review, McKinsey 等的硏究報(bào)告。開課第一天要穿西裝打領(lǐng)帶,因?yàn)橐拇蠛险眨屯砩嫌袣g迎晚宴。課程的講師都是大學(xué)教授,而且都有在世界各地私人機(jī)構(gòu)工作,或從事硏究或做顧問項(xiàng)目,故此整個(gè)課程可以說是理論與實(shí)踐並重。
感到意外的事,這次課程總共有近五十名學(xué)員,而且來(lái)源非常多元化。除了新加坡附近的國(guó)家外,粗略估計(jì)最少有十多個(gè)國(guó)藉人士,還包括不丹,厄瓜多爾,和阿聯(lián)酋等冷門國(guó)家!行業(yè)方面也很多元化,有銀行,醫(yī)藥,醫(yī)療,本地及海外的政府部門,及十多個(gè)其他不同行業(yè)。比如坐在我左邊的是來(lái)自體育活動(dòng)推廣公司,前面的是化妝品牌公司,在右邊的是腦神經(jīng)科專家!職位方面有畢業(yè)不久的年輕工程師及Data scientist,有 CEO, CFO, COO, 人力資源總監(jiān),市場(chǎng)推廣總監(jiān)等等,但退休人士就好像只有我一個(gè)!從學(xué)員的背景來(lái)看,可以說是達(dá)到 diversity 的極至,這也反映出大數(shù)據(jù)分析已經(jīng)在全世界各行各業(yè),各種職級(jí)等都受到了相當(dāng)大程度的重視!
課程也有其懐舊之處。首先在課程和閱讀資料中看到了久違了的統(tǒng)計(jì)學(xué)算式,如 linear regression, correlation, t-test, p-score, conditional probability 等等,其次是那個(gè)有四,五層梯級(jí),弧形的大講室,四十年前的回憶一下子湧上來(lái),真是百般滋味在心頭!
好了,言帰正傳!究竟課程學(xué)到了什么?什么是大數(shù)據(jù)?數(shù)據(jù)分析應(yīng)怎樣做?可以分享給小伙伴們嗎?
老實(shí)說,五天課程只是蜻蜒點(diǎn)水,學(xué)了點(diǎn)皮毛而已,就不要班門弄斧了。但為了證明這五天不是白過的,在此便分享一下幾點(diǎn)心得。
1. 什么是大數(shù)據(jù)?
在眾多的定義中,最有代表性的應(yīng)該是大數(shù)據(jù)的4個(gè)V 了!
Volume 大量, Velocity 高速, Variety 多樣化 和 Veracity 真實(shí)性 !以下一張圖便可解釋,我也不再作詳述了。

大數(shù)據(jù)近年發(fā)展的主要?jiǎng)恿?lái)自電腦運(yùn)算速度的不斷增強(qiáng),打個(gè)簡(jiǎn)單的比喻: 如果從50年代起,汽車的車速增長(zhǎng)能跟電腦運(yùn)算增速一樣,那我們現(xiàn)在已經(jīng)可以在比光速快八百萬(wàn)倍下飛行了!其他科技的發(fā)展如移動(dòng)網(wǎng)絡(luò),物聯(lián)網(wǎng),各種微型感應(yīng)器等對(duì)數(shù)據(jù)產(chǎn)生的量,速度和多元花也有很大的推動(dòng),從90%的數(shù)據(jù)是在最近兩年才產(chǎn)生便知一二。另外云計(jì)算的普及,各種不同數(shù)據(jù)分析模型的出現(xiàn),和人工智能的發(fā)展也大幅提升了分析大量數(shù)據(jù)的能力。
但專家們認(rèn)為現(xiàn)正只是個(gè)開始,因?yàn)槟壳爸挥袑?duì)極少量的數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)的質(zhì)量和可信性,尢其是對(duì)那些unstructured data 如 文字,圖片,視頻還是有待加強(qiáng)。
2. 企業(yè)的大數(shù)據(jù)分析是怎么進(jìn)行?
簡(jiǎn)單來(lái)說有以下步驟:
1. 設(shè)定要解決的問題
2.收集數(shù)據(jù)
3. 數(shù)據(jù)清洗和預(yù)先處理
4. 選擇數(shù)據(jù)分析模型
5. 反復(fù)證實(shí)分析結(jié)果,調(diào)整模型
6. 應(yīng)用模型作為解決問題的方案
看來(lái)容易,但所有在課程中的講者都異口同聲說在現(xiàn)實(shí)中,有百分之八十到九十的大數(shù)據(jù)分析項(xiàng)目都是以失敗收?qǐng)龅?!我們常聽到的只是少?shù)的成功例子。
為什么?
大部分的原因是第一步已經(jīng)走錯(cuò)了!很多企業(yè)根本不懂問題在那里: trying to solve the wrong problem ! 原因是企業(yè)這些大型項(xiàng)目大多是從上至下的(top-down), 沒有從基層及客戶的角度先了解清楚問題便“追上潮流”攪大數(shù)據(jù)!
教授在課堂上舉了一個(gè)簡(jiǎn)單的超級(jí)市場(chǎng)例子:
在超市里,每天白菜的銷售是十五斤,芥蘭是十斤。高層們從數(shù)據(jù)看白菜比芥蘭受歡迎,所以認(rèn)定應(yīng)多進(jìn)貨白菜,決定對(duì)白菜進(jìn)行市場(chǎng)分析硏究。但從超市售貨員和客戶的角度看,其實(shí)芥蘭每天都在早上便售罄,下午缺貨,所以他們更希望多進(jìn)貨芥蘭!如果一開始對(duì)問題的設(shè)定已有偏差,那么接下去的分析也是白費(fèi)的。雖然這是一個(gè)極度簡(jiǎn)化的例子,但現(xiàn)實(shí)中有多少企業(yè)領(lǐng)導(dǎo)在決定那些大規(guī)模的項(xiàng)目前會(huì)先走訪一下基層和客戶呢?
第二個(gè)原因是選擇了錯(cuò)誤的模型。
分析模型大致分為 predictive (預(yù)測(cè)性的,比如銷售需求,壞賬機(jī)會(huì)率等)和 prescriptive (對(duì)策性的,比如改變策略對(duì)銷售的影響,市場(chǎng)推廣的有效性等等)。前者重點(diǎn)是相關(guān)性(correlation),后者重點(diǎn)是因果性(causality)。 兩者有很大的分別,不可以混在一起。
舉個(gè)較有趣的例子:比如有數(shù)據(jù)分析顯示穿厚衣服的人駕車失事率較高,原因不明,可能是因?yàn)槔涮煲┖褚路?,而冷天路面比較濕滑,所以兩者便有某程度的相關(guān)性。但如果因?yàn)檫@分析結(jié)果而限制穿厚衣服來(lái)減低失事率,你想會(huì)成功嗎?
第三個(gè)原因是數(shù)據(jù)質(zhì)量問題。這是整個(gè)項(xiàng)目中花時(shí)間最多的部分,佔(zhàn)大約百分之八十到九十。
最普遍的數(shù)據(jù)質(zhì)量問題是人為錯(cuò)誤,數(shù)據(jù)不全(missing data)和 數(shù)據(jù)偏倚(data/sample bias)。
第一項(xiàng)要用流程管理來(lái)解決,
第二項(xiàng)可以放入預(yù)設(shè)值(default value), 但如果不全的是重要數(shù)據(jù)或是有系統(tǒng)性的數(shù)據(jù)不全,那可能是某程度上的數(shù)據(jù)偏倚。
數(shù)據(jù)偏倚是比較嚴(yán)重的問題,直接影響到模型的效果,但是在現(xiàn)實(shí)里又非常普遍。比如貸款公司用自身客戶的數(shù)據(jù)分析來(lái)預(yù)測(cè)潛在新客戶的壞賬率,這便是典型的 sample bias。因?yàn)樽陨砜蛻糁皇窃诠拘刨J審查下的成功個(gè)案,而沒有包含那些不成功申請(qǐng)的人的壞賬率。最后的結(jié)果是模型可能排除了那些沒有成功申請(qǐng)但又沒有壞賬的潛在客戶,白白損失了業(yè)務(wù)機(jī)會(huì)。Sample bias 不容易解決,通常是引入外來(lái)數(shù)據(jù)補(bǔ)充,或在業(yè)務(wù)發(fā)展初期時(shí)以隨機(jī)的形式,用來(lái)收集足夠的數(shù)據(jù)后再建立模型。
第四個(gè)原因是模型的確認(rèn)和調(diào)整沒有得到業(yè)務(wù)上的支持,和企業(yè)內(nèi)部壁壘分明導(dǎo)致。
Data Scientist (通常是顧問公司或外聘員工)建好數(shù)據(jù)模型,得出的結(jié)果要交給業(yè)務(wù)部門確認(rèn)和 sign-off。 但業(yè)務(wù)部門就是不賣賬,“我就不認(rèn)識(shí)這些,看不懂那些專業(yè)統(tǒng)計(jì)報(bào)告”。 于是很多項(xiàng)目在模型確認(rèn)上遭遇到瓶頸,面對(duì)無(wú)了期的延誤而導(dǎo)致胎死腹中。
這過程不僅需要懂得數(shù)據(jù)分析模型的data scientist, 還需要專業(yè)的業(yè)務(wù)知識(shí)才能確認(rèn)和調(diào)整模型直到可以付諸應(yīng)用。兩者中間需要有“translator” 來(lái)協(xié)調(diào)溝通。
正因?yàn)榇耍忻嫔夏芡瑫r(shí)擁有業(yè)務(wù)知識(shí)和數(shù)據(jù)分析的 Business Analyst 將會(huì)門庭若市。教授們也說他們未來(lái)課程發(fā)展的方向是結(jié)合 business, computer science 和 data science 的範(fàn)疇, 企業(yè)也應(yīng)該把重點(diǎn)放在現(xiàn)有員工在這幾方面的綜合培訓(xùn)上,破除壁壘,break down the silos ! 小伙伴們好好把握這個(gè)機(jī)會(huì)吧!
相比之下,收集數(shù)據(jù)和數(shù)據(jù)模型運(yùn)算反而是較容易的一步。
在課程中教授也介紹了不少現(xiàn)成的Data Warehouse Automation tool, 還放了一個(gè)示範(fàn)視頻。雖然有點(diǎn)technical 和大量專業(yè)名詞我不太懂,但看來(lái)也真是很簡(jiǎn)單的,幾乎不需要什么computer coding。聽說比起傳統(tǒng)的建立 Data Warehouse 的流程要快上十倍!
同樣地,教授也即場(chǎng)示範(fàn)了從網(wǎng)站上的Data Robot 做一個(gè)數(shù)據(jù)分析。從上傳分析數(shù)據(jù),到初步運(yùn)算分析結(jié)果出來(lái)只是幾分鐘的時(shí)間。Robot 還提供了多達(dá)三十個(gè)的數(shù)學(xué)模型選擇,還可以微調(diào)各項(xiàng)參數(shù),及輸入分析數(shù)據(jù)以外的新數(shù)據(jù)來(lái)反復(fù)驗(yàn)證??梢灶A(yù)計(jì)的是,將來(lái)這些平臺(tái)會(huì)越來(lái)越多,可能跟現(xiàn)在的excel spreadsheet 一樣普及呢!
還有現(xiàn)在有些網(wǎng)站可以提供平臺(tái)給企業(yè)上傳數(shù)據(jù)和註明要解決的問題,然后公開懸賞給網(wǎng)上的専家比賽尋找解決方案!有些獎(jiǎng)金還高達(dá)幾十萬(wàn)美元!
看來(lái)大數(shù)據(jù)分析這範(fàn)疇將會(huì)越來(lái)越普及,越來(lái)越精彩有趣!
課程的另一部分集中在大數(shù)據(jù)在各行業(yè)的應(yīng)用,和對(duì)新的商業(yè)模式的影響。另外還請(qǐng)來(lái)一位專業(yè)黑客講述一下網(wǎng)絡(luò)安全。但為了避免文章篇幅太長(zhǎng),決定暫且停筆,留待以后再分享。
抱歉要小伙伴們耐心等待一下!