概念
1、含義
數(shù)據(jù)分析是數(shù)據(jù)和分析的結(jié)合,通過對數(shù)據(jù)統(tǒng)計處理分析出對業(yè)務(wù)有用的觀點。其過程更加重視思維方法而非技術(shù)手段。技術(shù)只是實現(xiàn)目的的一種方法。因此相關(guān)人員的技術(shù)能力難以評判。數(shù)據(jù)分析一般在業(yè)務(wù)初創(chuàng)和改善時期十分有用。
其業(yè)務(wù)場景主要有:
(1)掌握業(yè)務(wù),如核心指標通過漏斗數(shù)據(jù)和序列數(shù)據(jù)展示;可以通過報表看到數(shù)據(jù)變化情況,并分析為什么,是否存在問題
(2)改進業(yè)務(wù),分析業(yè)務(wù)潛力和問題;是否有業(yè)務(wù)下滑和用戶流失。
(3)評估某一策略的效果等。
2、準備
數(shù)據(jù)分析的需要的技能為:
(1)業(yè)務(wù)調(diào)研;通過調(diào)研得到分析思路和方向主題,如產(chǎn)品驗證和啟發(fā)思路。
(2)創(chuàng)新思考;需要廣闊的知識面:經(jīng)濟學,心理學和統(tǒng)計學。
經(jīng)濟學,如分析電商財報,毛利很低,待付賬單很大。
毛利低--消費者擴大--市場擴大--掌握供應(yīng)商--分期付款--錢拿去做金融
(互聯(lián)網(wǎng)中為用戶創(chuàng)造價值和盈利往往不在一個領(lǐng)域,羊毛出在豬身上理論);
心理學,如便捷食品中有無洋蔥案例,減少家庭主婦內(nèi)疚感。
統(tǒng)計學,主要是算法了。
(3)邏輯推理;不同的背景和角度可能得到不同的結(jié)果,因此要全面。邏輯推理不等于因果關(guān)系推理,也不等于相關(guān)性關(guān)系。在分析中很可能因為錯誤歸因(把相關(guān)關(guān)系認為是因果關(guān)系);比較對象選擇失當;以及數(shù)據(jù)維度選擇問題;先入為主的偏見;個例代表全體導致結(jié)果出錯。
(4)可行性建議;一般的分析只是陳述事實;優(yōu)秀的分析要分析優(yōu)勢,劣勢,怎么辦。
3、分析方法
(1)傳統(tǒng)數(shù)據(jù)指標
傳統(tǒng)數(shù)據(jù)指標包括概率表,直方圖,均值,方差,標準差(衡量數(shù)據(jù)的散度)和相關(guān)性等。其基本理論支撐是大數(shù)定律。樣本量越大,統(tǒng)計值越接近真實值。
(2)分析手段
在拿到數(shù)據(jù)后,從哪些角度開始分析呢。
1、指標拆分
<1>分布分析
數(shù)據(jù)指標可能在不同的數(shù)據(jù)分布中是相同的,無法真正表示數(shù)據(jù)。因此只關(guān)注指標而不關(guān)注數(shù)據(jù)是不行的。
<2>趨勢分析
趨勢分析包括:單變量趨勢和多變量趨勢
單變量趨勢:通過周期,波動,異常值
多變量趨勢:基于系統(tǒng)基模;抽象出增強環(huán)(各個節(jié)點循環(huán)促進),調(diào)節(jié)環(huán)(各個節(jié)點相互牽制最終平衡),以及考慮時間延遲性(某些改進可能并不是立即就會有明顯效果)
<3>因素分析
因素分析可以進行多種拆解。
(1)根據(jù)流程的各個階段進行縱向拆解,通過漏斗以及比例等發(fā)現(xiàn)問題。
(2)根據(jù)模塊進行橫行拆解。
如在買股票是判斷公司股票是不是值得買。
首先從收入支出,資產(chǎn)負債等得到營業(yè)利潤和總資產(chǎn),相除得到資產(chǎn)回報率,可以反應(yīng)企業(yè)的經(jīng)營效率。再從營業(yè)利潤和總資產(chǎn)中剝離出凈利潤和股東權(quán)益,得到固定權(quán)益回報率,從而判斷值不值得投資。
2、樣本拆分
<1>個例分析
一般來說,高層次的數(shù)據(jù)統(tǒng)計可能會難以發(fā)現(xiàn)隱含的問題。這個時候需要從典型個例來進行分析。如視屏點擊率低的case,可以從點擊率及其低(顯著)的樣本入手,然后看這一類在總量中占比;另一方面,選擇數(shù)量多的案例進行分析;直到分析的樣本包含整個數(shù)據(jù)集。
<2>異常分析
與預期不相符合就是異常。
<3>分組分析
小組化劃分后數(shù)據(jù)的特征會更加鮮明,同時不同組的需求不相同,需要差異化個性化的服務(wù)。一般對于客戶的劃分可以從(大小,新老,行業(yè))進行,因為他們需求不同。
(1)在用戶增長領(lǐng)域,可以利用分組做留存分析,這個分組規(guī)則按照用戶的使用程度劃分,因為使用產(chǎn)品時間長度不一的用戶一般來說流失的原因是不一樣的。
(2)在價格歧視領(lǐng)域,可以對不同用戶群或者客戶群按其價格可承受程度分組,分別定價,如飛機票。
4、高級工具,OLAP與機器學習模型
<1>OLAP
分組分析與因素分析等結(jié)合,對數(shù)據(jù)切片、分塊;鉆取和上卷等。
<2>機器學習
1、非監(jiān)督
(1)聚類:一般要分5類的話,先用算法分為10-20類,再通過人工聚合。因為人工可以知道哪些參數(shù)或者維度更為重要。
(2)關(guān)聯(lián)規(guī)則
2、監(jiān)督學習
選定假設(shè)空間從而選擇模型,再進行模型訓練