互聯(lián)網(wǎng)用戶行為分析入門

對(duì)于計(jì)劃從事互聯(lián)網(wǎng)數(shù)據(jù)分析崗位的同學(xué),尤其是應(yīng)屆生,會(huì)學(xué)習(xí)Excel、Sql、Python,甚至Java、hadoop都有的去學(xué)習(xí),但是用戶行為分析是很多人都會(huì)遺漏的,而且可能都沒聽說過,往往在面試的時(shí)候被問到相關(guān)問題回一臉懵圈。這篇文章就是給應(yīng)屆生或者計(jì)劃從事互聯(lián)網(wǎng)數(shù)據(jù)分析的同學(xué)在用戶行為分析上入個(gè)門,知道如何去準(zhǔn)備。

一.1個(gè)需求

先從一個(gè)需求說起,以京東會(huì)員為例,假設(shè)下面的需求(數(shù)據(jù)是虛擬的)

現(xiàn)在每天購(gòu)買京東Plus會(huì)員的用戶為1千人,但是每天訪問Plus頻道的用戶高達(dá)10萬人,轉(zhuǎn)化率只有1%,
業(yè)務(wù)方(負(fù)責(zé)運(yùn)營(yíng)plus會(huì)員的同事)想分析一下,每天99%的用戶都是在哪里流失的,找到其中的可能的原因,
可以針對(duì)性的做一下產(chǎn)品調(diào)整或者營(yíng)銷方案,提高京東會(huì)員購(gòu)買轉(zhuǎn)化率。
image.png
image.png

二.用戶行為日志

1.概念

用戶行為,就是用戶在網(wǎng)站或者APP上所做的動(dòng)作,比如:搜索內(nèi)容,瀏覽頁面,觀看視頻,購(gòu)買商品,收藏,評(píng)論等等。

2.三大特點(diǎn)

數(shù)據(jù)量大:占比當(dāng)前大數(shù)據(jù)存儲(chǔ)至少80%以上,瀏覽一個(gè)頁面至少產(chǎn)生幾KB字節(jié)數(shù)據(jù)

半結(jié)構(gòu)化:每個(gè)頁面/按鈕的行為數(shù)據(jù)是結(jié)構(gòu)化,但是擴(kuò)展參數(shù)比較個(gè)性,各不相同

不可改變:行為一旦發(fā)生即已過去,不可變更(相對(duì)一筆訂單而言,從下單一直最后的退貨,狀態(tài)一直在變動(dòng)的過程中)。

3.用戶行為數(shù)據(jù)如何收集

收集用戶行為數(shù)據(jù)的專業(yè)術(shù)語叫“埋點(diǎn)”,這個(gè)詞在工作過程中頻繁用到,需要記住。

埋點(diǎn)是在網(wǎng)站/APP中針對(duì)特定用戶行為或事件進(jìn)行捕獲、處理和發(fā)送的相關(guān)技術(shù)及其實(shí)施過程,技術(shù)實(shí)質(zhì),是監(jiān)聽軟件應(yīng)用運(yùn)行過程中的事件,當(dāng)需要關(guān)注的事件發(fā)生時(shí)進(jìn)行判斷和捕獲。

收集用戶行為數(shù)據(jù)一般是由數(shù)據(jù)分析師、數(shù)據(jù)產(chǎn)品經(jīng)理提出埋點(diǎn)需求或者規(guī)劃,由前端開發(fā)工程師/app開發(fā)工程師進(jìn)行實(shí)現(xiàn)。下圖就是蘑菇街網(wǎng)站的一個(gè)埋點(diǎn)數(shù)據(jù)。


image.png

4. 用戶行為重點(diǎn)名詞解釋

Cookie

在客戶端記錄用戶身份的信息,實(shí)際上是一小段文本,有效期一般是一年。在數(shù)據(jù)分析中主要有2個(gè)作用,一個(gè)是在cookie中添加一些統(tǒng)計(jì)參數(shù)已滿足特殊業(yè)務(wù)場(chǎng)景需求,另外一個(gè)就是識(shí)別用戶身份(在用戶沒有登錄的情況下,都是通過Cookie中的唯一標(biāo)識(shí)來區(qū)分用戶,統(tǒng)計(jì)訪客量)。

重要程度:五星

Cookie查看方式一般有2種:

1)谷歌瀏覽器=》鼠標(biāo)右鍵=》檢查=》Network=》刷新當(dāng)前頁面

2)通過Charles、Fiddler等專業(yè)抓包軟件

image.png

Session

在服務(wù)端記錄并確認(rèn)用戶身份,有效期一般較短,保存在服務(wù)器上,在數(shù)據(jù)分析中一般用來跟蹤用戶來源,或者跟蹤訂單成交來源,還可以統(tǒng)計(jì)訪問次數(shù)(這個(gè)主要是在PC上統(tǒng)計(jì)),app端一般不根據(jù)這個(gè)統(tǒng)計(jì),目前統(tǒng)計(jì)訪問次數(shù)更多的是根據(jù)2次打開之間的時(shí)間間隔。

Url

統(tǒng)一資源定位符,一個(gè)給定的獨(dú)特資源在Web上的地址;五部分組成(協(xié)議/域名/路徑/端口/參數(shù));App中沒用url概念,一般用路由或者模塊名替代,而且IOS和Android不同。

重要程度:五星

在數(shù)據(jù)分析中主要是用來頁面分析漏斗分析。來看一個(gè)案例:

案例:https://list.mogu.com/book/trousers/50020?acm=3.mce.1_10_1pq5m.128038.0.enS7ZscGeR3IT.pos_872-m_600121-sd_119&ptp=31.v5mL0b.0.0.9HgY4AVC
協(xié)議:https
域名:list.mogu.com
路徑:/book/trousers/50020
端口:80(默認(rèn)是80,不顯示)
參數(shù)1:acm=3.mce.1_10_1pq5m.128038.0.enS7ZscGeR3IT.pos_872-m_600121-sd_119
參數(shù)2:ptp=31.v5mL0b.0.0.9HgY4AVC

Refer

本質(zhì)就是一個(gè)Url,是當(dāng)前頁面的引薦頁面(上一步頁面),比如我從京東首頁點(diǎn)擊進(jìn)去了京東會(huì)員頁面,京東會(huì)員頁面的的refer就是首頁。在數(shù)據(jù)分析中主要是用來做路徑分析、漏斗分析,像下圖的漏斗分析主要就是靠Url、Refer組合分析出來的。

重要程度:五星

image.png

抓包

將網(wǎng)絡(luò)傳輸發(fā)送與接收的數(shù)據(jù)包進(jìn)行截獲、重發(fā)、編輯、轉(zhuǎn)存等操作(數(shù)據(jù)分析是查看),常用抓包工具:Charles、Fiddler、谷歌瀏覽器右鍵檢查,在數(shù)據(jù)分析中主要是查看某個(gè)頁面的需要埋點(diǎn)參數(shù)是否有,或者驗(yàn)證開發(fā)工程師的埋點(diǎn)準(zhǔn)確性,這點(diǎn)很重要,一般情況下開發(fā)都說已經(jīng)完成埋點(diǎn)工作,但是沒有專門的測(cè)試同學(xué)對(duì)埋點(diǎn)進(jìn)行測(cè)試,準(zhǔn)確性有一定的誤差。

重要程度:五星

常用抓包工具:Charles、Fiddler、谷歌瀏覽器右鍵檢查。

三.如何解決京東這個(gè)需求

一般流程如下圖,要注意一點(diǎn)就是在數(shù)據(jù)統(tǒng)計(jì)分析出來之后反饋給需求方,這個(gè)一般情況下來回多次溝通反饋才能達(dá)到預(yù)期的結(jié)果,一輪一般搞不定。


image.png
  • 跟需求方明確需求,不要只是根據(jù)業(yè)務(wù)方的簡(jiǎn)單文字需求就開工,一定要當(dāng)面確認(rèn),很多情況下寫的比較簡(jiǎn)單,業(yè)務(wù)方也沒想清楚
  • 體驗(yàn)業(yè)務(wù)流程,這個(gè)非常重要,你要從用戶的角度來體驗(yàn),才有可能根據(jù)數(shù)據(jù)現(xiàn)象發(fā)現(xiàn)一些潛在問題
  • 頁面信息收集,下面這些主要信息都要收集到
1、詳情頁Url:       
   https://plus.jd.com/index?flow_system=appicon&flow_entrance=appicon11&flow_channel=pc
   頁面路徑: https://plus.jd.com/index
2、訂單頁Url:
   https://plus.jd.com/order/page
3、詳情頁主要連接出口
   京東首頁: https://www.jd.com/
   我的京東: https://home.jd.com/
   權(quán)益介紹頁: https://plus.jd.com/right/index#item-coupon
4、這里PC端相對(duì)好收集,APP端比較難,需要抓包(內(nèi)部人員可以方便的獲?。?
  • 查找數(shù)據(jù)源及數(shù)據(jù)字典
1、數(shù)據(jù)表名及數(shù)據(jù)字典(每個(gè)字段含義)
2、各層級(jí)粒度匯總表(可以大幅提升分析效率)
3、數(shù)據(jù)量級(jí)及分區(qū)鍵
4、Url后面參數(shù)含義(細(xì)分業(yè)務(wù)可能需要用到)
5、內(nèi)部一般都會(huì)有元數(shù)據(jù)平臺(tái)的,直接跟老員工要相關(guān)信息,效率更高
  • 數(shù)據(jù)統(tǒng)計(jì)及分析,下面是幾段可能的sql統(tǒng)計(jì),這種需求一般sql就能解決,不要python、java等代碼
#假設(shè)流量表名是dwd_pc_log
#到達(dá)詳情頁Top10來源
Select refer,count(*) pv
From dwd_pc_log
Where url=‘https://plus.jd.com/index’
Group by refer
Order by pv desc 
Limit 10

#從詳情頁出去的Top10頁面
Select url,count(*) pv
From dwd_pc_log
Where refer =‘https://plus.jd.com/index’
Group by refer
Order by pv desc 
Limit 10

#到付款頁面人數(shù)最高的前10頁面
select refer,count(*) uv
from (Select uid,refer from dwd_pc_log Where url=‘https://plus.jd.com/index’ Group by refer,uid) a
join( Select uid from dwd_pc_log Where url='https://plus.jd.com/order/page' Group by uid) b on a.uid=b.uid
group by refer
order by uv desc
 limit 10

  • 給需求方反饋結(jié)果,以下幾個(gè)注意點(diǎn)
1、在給業(yè)務(wù)方反饋時(shí)不能只給數(shù)據(jù),要有建議和觀點(diǎn)
2、數(shù)據(jù)可讀性要強(qiáng),如果你告訴他某個(gè)url頁面跳出率最高,是沒用的,要說到頁面名稱
3、數(shù)據(jù)分析邏輯性要強(qiáng),建議和觀點(diǎn)有理有據(jù)
4、分析腳本、數(shù)據(jù)、結(jié)論都要存檔,后續(xù)復(fù)用概率非常高

四. 結(jié)束語

這篇文章主要目的是希望應(yīng)屆生或者想入互聯(lián)網(wǎng)行業(yè)的分析師對(duì)用戶行為分析有一個(gè)概念,然后根據(jù)這些概念再進(jìn)行深入自學(xué),這篇文章確實(shí)比較難寫,看起來也有一定難度,個(gè)人覺得寫的也一般,主要還是因?yàn)楫?dāng)中涉及到了一些web技術(shù)和專業(yè)名詞。希望對(duì)大家能夠有所幫助,估計(jì)也會(huì)有很多疑問,希望各位看客可以留言討論。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容