數(shù)據(jù)分析流程:
1、明確問題:必須明確數(shù)據(jù)分析的真實目的,也便于后續(xù)分析策略的選取。
2、理解數(shù)據(jù):數(shù)據(jù)收集和探索,如爬蟲、API、設(shè)備的實測數(shù)據(jù)等。
3、數(shù)據(jù)清洗:一個數(shù)據(jù)分析項目大部分時間花在數(shù)據(jù)清洗上,如去除垃圾數(shù)據(jù),空值,異常值,整理成適配的格式等。
4、數(shù)據(jù)分析和測試:選擇合適的方法對清洗后的數(shù)據(jù)進行分析,并且測試其準確性。
5、可視化和建議:對結(jié)果進行可視化展示和結(jié)果解讀,數(shù)據(jù)有價值的結(jié)論和建議
數(shù)據(jù)分析方法:
1、常規(guī)分析
從Hive、MySQL中導(dǎo)出數(shù)據(jù)到EXCEL\Tableau,構(gòu)建核心指標、計算常用統(tǒng)計計量,及相關(guān)同比、環(huán)比等,借助表格、圖形等方式輸出日\周\月報或各維度比對、占比趨勢。
1)監(jiān)控日\周\月報:監(jiān)控指標,若波動環(huán)比較大的話,需要一步步分析查找原因
2)帕雷托分析法:又叫ABC分類法,主次因素分析法。在決定事物的眾多因素中識別出少數(shù)幾個但對結(jié)果起決定作用的關(guān)鍵因素,并分別以這些因素為維度,分析其相對于總體的占比等趨勢。比如認為廣告效果受投放渠道影響較大,可將效果(PV\UV\成單量等)按抖音快手百度等渠道維度聚合,對比占比,可進一步分析出哪些渠道效果好,哪些急需優(yōu)化,甚至?xí)和M斗拧?/p>
3)環(huán)比:本周環(huán)比上周,今年環(huán)比去年。
? ? ? ? ? ? ? ? ?如? ?環(huán)比增長率=(本周-上周)/上周×100%
? ? ? 同比:本周一同比上周一,今年6月同比去年6月。
? ? ? ? ? ? ? ? ?如? ?同比增長率=(本周一 - 上周一)/上周一×100%。
2、算法模型分析
當數(shù)據(jù)達到一定量,希望挖掘業(yè)務(wù)數(shù)據(jù),比如:a.預(yù)測成單量、DAU趨勢;b.用戶分群、構(gòu)建目標用戶畫像;c.關(guān)聯(lián)商品推薦(哪些商品被同時購買的幾率高)等等。
可借助下面較為成熟的算法模型進行分析,若仍不滿足業(yè)務(wù)需求,可考慮自建算法調(diào)參優(yōu)化:
監(jiān)督學(xué)習(xí)
分類:將數(shù)據(jù)劃分到合適的分類中(目標變量是離散型)。
回歸:預(yù)測數(shù)值型數(shù)據(jù)(目標變量是連續(xù)型)。
無監(jiān)督學(xué)習(xí)
聚類:將數(shù)據(jù)集合分成由類似的對象組成的多個類。
密度估計:尋找描述數(shù)據(jù)統(tǒng)計值,可聚類分組且估計數(shù)據(jù)與每個分組的相似程度。
降維:減少數(shù)據(jù)特征的維度,以便使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。

具體算法介紹和Python代碼實現(xiàn)可見下方: