Hadoop離線數(shù)據(jù)分析平臺實戰(zhàn)——330會話分析Hourly分析
項目進度
| 模塊名稱 | 完成情況 |
|---|---|
| 用戶基本信息分析(MR)? | 未完成 |
| 瀏覽器信息分析(MR) | 未完成 |
| 地域信息分析(MR) | 未完成 |
| 外鏈信息分析(MR) | 未完成 |
| 用戶瀏覽深度分析(Hive) | 未完成 |
| 訂單分析(Hive) | 未完成 |
| 事件分析(Hive) | 未完成 |
模塊介紹
Hourly分析指的是按照小時分析數(shù)據(jù),
在本次項目中,只分析活躍用戶、會話個數(shù)以及會話長度這三個指標的數(shù)據(jù)。
我們通過修改現(xiàn)有的job來達到完成hourly分析數(shù)據(jù)統(tǒng)計的目標。
分別通過在active user和sessions這兩個job中添加數(shù)據(jù)可以達到我們的分析要求。
計算規(guī)則
hourly分析分為hourly active user分析、hourly sessions分析以及hourly sessions length分析,
分別計算各個小時的活躍用戶、會話個數(shù)以及會話長度來進行展示操作。
最終數(shù)據(jù)保存:stats_hourly表中,每個小時的數(shù)據(jù)保存到對應列中。
涉及到其他表有dimension_platform、dimension_date、dimension_kpi。
編碼步驟
- 修改Active user的mapreduce代碼,添加統(tǒng)計hourly active user的代碼。
- 修改Sessions的mr代碼,添加統(tǒng)計hourly Sessions和hourly sessions length的代碼。
- 測試