數(shù)據(jù)分析的點、線、面
前言
在告別了人口紅利之后,對于成熟或平臺型產品而言,增長的核心不再是對增量用戶的擴張,而是對存量用戶的精細化運營,提升轉化效率及用戶價值挖掘,其中數(shù)據(jù)分析、運營扮演著一個重要的角色,但如何正確科學地分析數(shù)據(jù)并驅動業(yè)務改變和增長卻一直成為困擾,本文將梳理數(shù)據(jù)分析體系及數(shù)據(jù)運營一般方法論,幫助提升對數(shù)據(jù)分析的理解。
什么是數(shù)據(jù)分析
數(shù)據(jù)分析是對產品運營有標準、統(tǒng)一、客觀且直觀的理解,通過數(shù)據(jù)應用的種種方法幫助提升對產品、用戶、趨勢、渠道、營銷的理解和洞察,發(fā)現(xiàn)問題與潛在機會,從而驅動產品改變與提升。

數(shù)據(jù)分析的價值并不在于數(shù)據(jù)本身,而在于隱藏在海量雜亂的數(shù)據(jù)背后的行為洞察與規(guī)律。
為什么要做數(shù)據(jù)分析
數(shù)據(jù)分析解決的是一個決策路徑的問題,不再是“我覺得式”的拍腦袋,而是還原事物本來“應該是”的客觀規(guī)律。
數(shù)據(jù)證明規(guī)律,規(guī)律帶來洞察,洞察改變產品。
最近幾年來火熱的以頭條、ins為代表的增長黑客理論,就是在基礎數(shù)據(jù)平臺及技術革新的基礎上,實現(xiàn)了對用戶和內容的精細化運營,從而達到增長,可以理解為是一種以數(shù)據(jù)為核心驅動力的產品哲學。

在互聯(lián)網發(fā)展的歷史中,沉淀下來的數(shù)據(jù)分析方法論有很多,建立在深淺不一的數(shù)學統(tǒng)計學原理之上,下文會介紹一些數(shù)據(jù)分析體系規(guī)劃的一般方法論及案例,從“點、線、面”三個維度依次講述數(shù)據(jù)分析的三個層級。
一、“點”:概念與趨勢
概念:指標、維度與多維分析
指標與維度,是在了解數(shù)據(jù)分析之前必須要理解的概念,也是最困擾的問題之一:
指標:指標是指通過特定的統(tǒng)計邏輯計算出來能量化事物發(fā)展程度的度量,如pv,uv等
維度:維度可以簡單理解為我們觀察數(shù)據(jù)指標的角度,如時間、年齡、渠道、終端等
在統(tǒng)計學中,根據(jù)性質可以將指標分為絕對指標和相對指標:
絕對指標:是指統(tǒng)計量的絕對值,用于反映規(guī)模、大小的量級指標,如活躍用戶數(shù)
相對指標:是指統(tǒng)計量的比率值,用于反映程度、質量的健康水平指標,如人均使用時長
相對指標是由絕對指標通過計算得來,可以說絕對指標是相對指標的基礎,而相對指標常常蘊含著更大的信息量,這也是為什么在分析過程中,需要構建相對指標來輔助分析的原因。

單一的指標沒有意義,至少需要有一個維度以上的對比才能產生價值,且只有放在同一個維度下對比才有意義,對比的維度根據(jù)觀察粒度可以分為宏觀、中觀、微觀三個視角:

多維分析:下面以消息量為例,演示多維分析的遞進式下鉆分析

考慮的維度越多,洞察就可能越深入
維度不是越多越好,分析維度最好控制在五維以內
通過求和或均值的方式聚合某一些維度,可達到降維分析的效果

機器學習:相比于人類肉眼而言,機器具備同時處理更多維度數(shù)據(jù)的分析與挖掘能力,輔以合適的算法,機器學習是可以獲取比人類更深入的數(shù)據(jù)洞察,這也是為什么機器學習成為了一項越來越熱門技術的原因。
二、“線”:分析與洞察
數(shù)據(jù)分析按照時間邏輯可分為原因分析、現(xiàn)狀分析及預測分析,分別反映過去、現(xiàn)狀及未來的產品情況。由此,我們得出了數(shù)據(jù)分析的三個階段,分別是描述性、驗證性及探索性分析:
描述性分析:是對數(shù)據(jù)源最初的認知,使用幾個關鍵數(shù)據(jù)來描述整體的情況,如結構、邏輯樹、漏斗分析
驗證性分析:側重于驗證之前假設的真?zhèn)涡?,探索兩個時間之間的相關性,如相關、因子、關聯(lián)分析
探索性分析:側重于在數(shù)據(jù)中探索新的特征,挖掘數(shù)據(jù)潛在的內在聯(lián)系,如聚類、回歸、預測分析

描述性分析
結構分析法:基于某些維度計算組成成分,進而分析某一總體現(xiàn)象的內部結構特征的統(tǒng)計方法
邏輯樹分析法:通過不斷用更小的量化指標去細分一個大的指標,從而達到定位問題的目的
漏斗分析法:用來分析從潛在用戶到最終用戶這個過程中用戶數(shù)量的變化趨勢,從而尋找到最佳的優(yōu)化空間

驗證性分析
AB測試:AB測試是通過對n組相似用戶群體,分別下發(fā)不同版本的配置/UI/文案,通過收集數(shù)據(jù)反饋,來做出最優(yōu)決策一種在線測試方法,是目前主流的科學決策方法,但需要注意,AB測試不能度量長期目標。

魔法數(shù)字:當新用戶在一定時間里、以某種頻率使用了某個功能時,會有更大的可能留下來,成為忠誠用戶,而一旦發(fā)現(xiàn)了這樣的功能,反過來引導用戶多次使用,達到一定次數(shù),就可能為產品帶來更高的留存,這些能夠大大提高用戶留存的神奇數(shù)字。

相關性與因果性:忽略了外部的關鍵因素,會得出荒謬的因果結論。A和B的數(shù)據(jù)高度相關,有人就片面認為A影響了B,或者B影響了A;但是,有時候真實原因是C同時影響了A和B,而C被忽略掉了。

探索性分析
聚類分析:“物以類聚,人以群分”,聚類是通過統(tǒng)計學原理計算樣本之間的距離從而達到無監(jiān)督分類的一種多元分析方法,其優(yōu)勢在于不需要加入人為的干預就能達到分類預測的效果,是典型的機器學習的應用場景。

場景分析:場景定位是獲取產品洞察及挖掘用戶需求重要的手段,通常通過文本挖掘、歸納總結、抽樣調查等方式細分場景,同時對不同場景進行分析及深耕,挖掘用戶潛在需求。

三、“面”:體系與精細化
數(shù)據(jù)指標體系
在維度和指標的基礎上進行多維分析后,我們獲取了對產品和用戶更好的理解,在此基礎上,我們按照產品邏輯進行模塊、分析維度及指標集的歸納整理,使之成為一種有機、條理化的體系,就是我們所說的數(shù)據(jù)指標體系。

時間序列預測與異動監(jiān)控平臺
在完成數(shù)據(jù)指標體系搭建后,一個棘手的問題來了,對于每天產生的數(shù)以千計的數(shù)據(jù)指標來說,如何做到日常的異動監(jiān)控?
這個問題可以簡化成一個時間序列分析問題,其核心在于通過歷史數(shù)據(jù)來預測未來的發(fā)展趨勢,通過模型預測解決異動監(jiān)控的問題,我們引入了Facebook開源的時間序列框架Prophet,其原理在于將一個時間序列,拆解為趨勢、周期性、季節(jié)性、節(jié)假日及隨機性五個模塊:

g(t):趨勢函數(shù),用來擬合時間序列中的非周期性變化,判斷序列處于上升或下降趨勢;
s(t):周期性變化,周期性包括每周、月、季節(jié)等變化趨勢;
h(t):變點,潛在的具有非固定周期的節(jié)假日及變點對預測值造成的影響;
?(t):噪聲項,表示未預測到的隨機波動。通過模擬數(shù)據(jù)分析師日常的分析視角,可以對一個核心序列進行各個關鍵維度的拆解,組合使用Prophet對每一個下鉆指標進行建模,可以達到迅速定位異動原因的效果,其結果常??梢耘c經驗豐富的數(shù)據(jù)分析師媲美。

用戶價值模型:用戶群的精細化運營
對于一個成熟的產品來說,產品功能、產品設計、交互方式及營銷方案都是多種多樣的,同時用戶需求和偏好也是多樣化的,兩者隨著產品發(fā)展階段會出現(xiàn)不同程度的矛盾,精細化運營就是通過各種手段進行用戶分群,對不同需求和偏好的用戶群進行差異化的產品側運營。
同時,在產品發(fā)展的各個階段,我們需要對用戶進行拉新、促活、留存的運營,但由于資源的有限性,需要對不同的用戶群體實行有針對性的運營策略,從而實現(xiàn)投入產出比的最大化。因此,準確且全面的用戶分群顯得尤為重要。
RFM用戶價值模型:由三個神奇的要素構成(R、F、M),通過這三個要素的有機結合可以幫助我們更為客觀、全面地看待用戶價值:
R:最近一次消費時間(Recency),越近越好,響應更為及時,運營產生的效果更加好
F:消費頻率(Frequency),越高越好,說明用戶滿意度高,復購意愿更強,忠誠度更高
M:消費金額(Monetary),越高越好,說明用戶本身付費意愿更強,對收入的貢獻度更高

個性化推薦系統(tǒng)
個性化推薦是精細化運營的一種,如果分群是對用戶群的精細化運營,那么推薦系統(tǒng)可以理解為對單個用戶粒度的精細化運營,通常是我們數(shù)據(jù)應用的加工程度和工藝達到最大化的一層,也是數(shù)據(jù)對產品所能產生的最直接的影響與變現(xiàn)。
推薦系統(tǒng)是基于用戶的歷史行為、社交關系、興趣點、所處上下文環(huán)境等信息,去判斷用戶當前需要或感興趣的物品/服務,或幫助用戶進行決策的一類應用。
搜索與推薦本質上都是幫助用戶快速發(fā)現(xiàn)有用信息的工具,其輸出的結果常常是相同的,但同樣是建立用戶與信息之間的連接,兩者在結構上有天然的差別,其差別主要源于在用戶動機及信息流動機制上。
推薦系統(tǒng)產生的原因有很多,其核心原因在于信息過載、用戶偏好、無明確需求。推薦系統(tǒng)的任務和作用就在于在于連接,縮短用戶與有價值信息之間的路徑,讓用戶離偏好的東西更近一步,提升產品體驗與轉化效率。

推薦系統(tǒng)的組成會根據(jù)不同的業(yè)務場景而有所不同,但通常會包含以下五個通用模塊,我們暫且稱之為“AFRRF”,五個模塊環(huán)環(huán)相扣,互為依賴:

一個好的推薦系統(tǒng),需要平衡和連接用戶、內容和產品三方的需求,在提供準確推薦結果的前提下,提供信息活水流動的機制,其中長尾信息的挖掘是至關重要的一部分,系統(tǒng)化的設計保持生態(tài)系統(tǒng)處于自我迭代發(fā)展的自循環(huán)機制,也就是我們說的產品的可持續(xù)發(fā)展。
其他雜談
在當前所處的大數(shù)據(jù)趨勢與環(huán)境下,無論是數(shù)據(jù)規(guī)模還是數(shù)據(jù)加工程度和工藝都正在得到了持續(xù)且長足的發(fā)展,數(shù)據(jù)采集、分析、挖掘對于產品的發(fā)展已經變得越來越重要,可以說對數(shù)據(jù)的理解程度決定了對用戶和產品的洞察能力,也決定了產品能否持續(xù)迭代優(yōu)化,提升用戶體驗。