工作中常常要跟形形色色的策劃打交道,發(fā)現(xiàn)如果從數(shù)據(jù)運(yùn)用的角度來看,策劃們大概可以被規(guī)為四類:
? ? ? 逗逼策劃:只看自己做的功能或者活動的運(yùn)營數(shù)據(jù),例如參與率、完成率;
? ? ? 正常策劃:看產(chǎn)品的總體數(shù)據(jù),例如新增、留存、活躍、會員等;
? ? ? 優(yōu)秀策劃:除了總體數(shù)據(jù),還會關(guān)注用戶的行為數(shù)據(jù),進(jìn)行聚類和節(jié)點(diǎn)分析;
? ? ? 牛逼策劃:在產(chǎn)品數(shù)據(jù)的基礎(chǔ)上,結(jié)合用研的結(jié)果,進(jìn)行有效的綜合分析。
今天主要談的是用戶行為數(shù)據(jù)的聚類運(yùn)用問題。
每個用戶每次從登陸產(chǎn)品到下線的整個過程,都會進(jìn)行一系列的操作。這些操作中大部分是可以被記錄下來的,我們稱之為行為節(jié)點(diǎn)。在產(chǎn)品中我們通過埋數(shù)據(jù)點(diǎn)的方式來獲取用戶的這些行為信息,從而進(jìn)行分析。至于具體怎么埋數(shù)據(jù)點(diǎn),不在本文的討論范疇,問問搞運(yùn)維的同學(xué)就明白了。
步驟一:梳理數(shù)據(jù)點(diǎn) ? ? ?
運(yùn)維的同學(xué)碼程序埋上數(shù)據(jù)點(diǎn),但他們本身并不知道哪些節(jié)點(diǎn)是具有分析價值的,因此策劃和用研的同學(xué)需要先將要添加數(shù)據(jù)點(diǎn)的功能和入口梳理出來。我們可以用Mindmanager等軟件對產(chǎn)品的主要功能進(jìn)行拆解。拆解當(dāng)然是越細(xì)越好,需要注意的是,同一個功能模塊里邊往往包含多個值得記錄的點(diǎn),這時就需要我們先明確好研究的目的,確定到底以哪個點(diǎn)作為分析的基準(zhǔn)。
舉個例子,一個包含小游戲的活動頁面,可能包含“點(diǎn)擊進(jìn)入游戲”,”小游戲通關(guān)“,”領(lǐng)獎“等多個可以記錄的點(diǎn),那么我們應(yīng)該選取哪個點(diǎn)作為分析標(biāo)準(zhǔn)呢?如果只是想知道用戶登陸之后是否有參加過這個活動,那么我們可能只需要記錄“點(diǎn)擊進(jìn)入游戲”就行了。

步驟二:選取隨機(jī)樣本進(jìn)行記錄
埋好了數(shù)據(jù)點(diǎn),接下來我們就需要選取合適的時間段、合適的樣本進(jìn)行跟蹤記錄。這一步主要是由機(jī)器完成,我們要做的就是耐心等待。
先說所謂合適的樣本,指的是根據(jù)你的研究對象而定。例如,你研究的是會員用戶,那么你可能只需要選取10萬個隨機(jī)的會員進(jìn)行追蹤。為什么要隨機(jī)而不是全部會員呢?因?yàn)?0萬條的數(shù)據(jù),可能你處理起來頂多是電腦一卡一卡,但100萬條數(shù)據(jù)處理起來,搞不好就是直接把電腦崩掉了(/≧▽≦)/ 為什么要10萬呢?其實(shí)樣本的量太少了結(jié)果信度不足,但是過多了會產(chǎn)生邊際效應(yīng),量的增加所能起到的作用會不斷衰減。實(shí)際上跟蹤10萬個用戶的結(jié)果,你會發(fā)現(xiàn)中間可能有2萬的用戶的行為并沒有太大分析意義,例如有些用戶的行為過少導(dǎo)致他們無法被歸類。那么到底應(yīng)該要取多少才最好呢?實(shí)際上個人認(rèn)為并沒有最優(yōu)解,有一些關(guān)于樣本數(shù)的統(tǒng)計(jì)學(xué)公式可以利用,但是實(shí)際還是根據(jù)實(shí)際結(jié)果不斷調(diào)整的,多一些總比少一些好。
再來所謂合適的時間段。追蹤哪個時間段?追蹤多久?假設(shè)基礎(chǔ)數(shù)據(jù)表明你的用戶在周日登陸情況最佳,那么可以考慮追蹤周日這一天的用戶行為。更加靠譜的方式是連續(xù)追蹤多個星期,譬如一個月內(nèi)每個周日的情況。實(shí)際上用戶的行為是很容易受到活動等因素影響的,譬如某個需要通過“種菜”來獲得豐厚獎勵的活動很可能讓用戶在“農(nóng)場”這個功能模塊中的參與率和停留時間都異于正常水平。

步驟三:對數(shù)據(jù)進(jìn)行聚類處理
終于等到跟蹤結(jié)束了,興奮地拿到后才發(fā)現(xiàn)“哇,這么海量的數(shù)據(jù),到底要怎么用起來?〒▽〒” 別急,先用Excel做一下基本的處理。把每一項(xiàng)的參與率、停留時間等理順了(開發(fā)給的數(shù)據(jù)格式往往是不適合人類看的)。需要注意的是,參與率與停留時間,活動與基礎(chǔ)功能,這些數(shù)據(jù)是不能混在一起進(jìn)行聚類的?;顒右话闶嵌唐诘亩A(chǔ)功能則是長期的,它們對于用戶而言使用的模式完全不同,例如大部分用戶會參與UI上標(biāo)識突出的活動,而某些長期存在的基礎(chǔ)功能則不一定會進(jìn)入。因此,如果你研究的是用戶在基礎(chǔ)功能上的參與行為,那么就需要將活動的影響盡量剝離開來。
隨后,我們需要使用SPSS將EXCEL的數(shù)據(jù)導(dǎo)入進(jìn)行。什么,你不會用SPSS?那找個《SPSS教程》看看吧,就你宇宙無敵的策劃頭腦學(xué)起來應(yīng)該是小CASE。假設(shè)不考慮停留時間只看基礎(chǔ)功能參與,在SPSS君看來,你喂給它的數(shù)據(jù)實(shí)際上就是一堆1和0,1代表用戶使用過這個功能,而0代表沒有。這時你只要使用SPSS里的聚類分析,就可以請SPSS君從數(shù)學(xué)的角度,判斷哪些用戶的行為具有相似性,從而得出不同的類別的用戶了。值得注意的是,聚類的方法有很多種,常用的例如K均值聚類,要聚出多少類是由你自己輸入確定的,因此需要以不同的聚類數(shù)量嘗試多幾次,看看每一次聚出的類別的代表性如何。畢竟工具的聚類它完全是從數(shù)據(jù)的角度來進(jìn)行的,是否具有實(shí)際的代表意義還需要主觀判斷。什么,主觀判斷會不會不靠譜?這就是為什么需要多跟蹤幾個星期了,伙計(jì)。
現(xiàn)在,對于每一類的用戶,你可以統(tǒng)計(jì)出他們在各個基礎(chǔ)功能的參與率,從而為他們定義標(biāo)簽。例如你會看到有一類用戶,在”聊天室“、”花店“、”多人游戲庁“這幾個參與率上明顯高于其它類別,那么你也許可以給他們一個“強(qiáng)社交傾向用戶”的標(biāo)簽。

需要注意的是,無論采用何種方法進(jìn)行聚類,得出的結(jié)果中總會有一類屬于無法被歸類的用戶,我們稱為發(fā)散型用戶。這些用戶的行為可能過少或者過多,導(dǎo)致SPSS無法找到數(shù)學(xué)的關(guān)聯(lián)性。但這并不意味著這些用戶沒有研究價值,相反的,這批人中有可能包含兩種用戶,一種是快要流失的用戶(行為很少),另一種是長時間在線的忠誠用戶(行為很多)。假如你發(fā)現(xiàn)聚出的結(jié)果中發(fā)散型用戶占比很高,那么你就要小心了。
上述的聚類方法和分析方法實(shí)際上還是比較粗糙的,我們還可以進(jìn)行諸如降維等精細(xì)化的操作。至于更多高級的算法,筆者也在摸索當(dāng)中,不過相信大部分策劃的工作里都不會去涉及。
步驟四:與用研數(shù)據(jù)進(jìn)行交叉分析
”噢耶,原來用戶有這么幾個類型的!“別高興得太早,用戶行為的數(shù)據(jù)只能告訴不同類別的用戶使用你的產(chǎn)品時會傾向于做哪些事情,但它并不能告訴你為什么他們要這么做?這時,就需要通過用研的方法了解用戶行為的動機(jī)和情感需求。一個比較簡單的例子,我們是否可以了解他們喜歡哪些基礎(chǔ)功能呢? 前述我們進(jìn)行了功能的拆解,那么現(xiàn)在我們同樣可以講這些功能寫入線上的問卷中,通過投放問卷來了解用戶對各個基礎(chǔ)功能的喜好程度。
通過行為數(shù)據(jù)與偏好數(shù)據(jù)的交叉對比,我們可以做出類似下邊的散點(diǎn)圖:

特別需要關(guān)注的是“喜歡但玩的少”和“不喜歡但玩得多”這兩個象限??梢钥闯觥睆?qiáng)社交傾向“這個類別的用戶,對”聊天室“的參與度很高,但是他們的喜好程度卻很低。用戶為什么會”言行不一“呢?通過進(jìn)一步的定性訪談或者定量問卷,你可能會發(fā)現(xiàn)聊天室的體驗(yàn)比較糟糕,這群用戶習(xí)慣于去聊天室里頭找人,然后轉(zhuǎn)移陣地到外部的聊天工具里頭去聊。下一步,如果你覺得聊天室對于提高留存至關(guān)重要,那么考慮下個版本重點(diǎn)優(yōu)化下聊天室?
互聯(lián)網(wǎng)產(chǎn)品的好處之一,就是可以跟蹤記錄用戶行為這筆寶貴的資源,這在傳統(tǒng)行業(yè)是難以做到的。因此,作為策劃就更應(yīng)該把這筆資源利用起來。