知識點總結

如何用數據解決實際問題
第1章 解決問題,你需要“流程”

圖1 解決問題的流程
- 目的:針對“原因是什么,需要采取哪些行動”等問題得出結論
- 問題:思考“怎樣才是最理想的狀態(tài)”,現狀與理想狀態(tài)之間的差距就是問題
- 通過“假設”分解問題和尋找原因,再收集證據(數據)證明或推翻假設。難以收集全部數據是很正常的,但也不應該根據“現有數據”來開始所有的工作,需要設法借用相同或相近的數據來代替理論上所需的數據
第2章 分解數據,找到“問題的關鍵”
- 趨勢:捕捉數據在一段時間內的變化
- 快照:截取某個期間的情況,查看指標在期間內的大小、比例和分布等
- WHAT型假設 將較大變量分解為具體指標,找到最小的具體指標以后再通過維度拆分
- 平均值&中位數
| 指標 | 優(yōu)點 | 缺點 |
|---|---|---|
| 平均值 | 能夠用一個數值表現整體的“大小” 易于計算及使用 |
平均之后,看不出來原始數據 存在極大(或極?。抵禃r,會受其影響 |
| 中位數 | 不受離群值影響,用位于中間的數據表示 | 表示整體“大小”的程度不夠精確(因為消除了離群值的影響) 與平均值相同,看不出來原始數據 |
- 平均值會忽略“數據構成要素的差異”,可能會使讀者誤入“辛普森悖論”
- 標準差。體現數據波動,前提是兩個數據大小相當或相同
- 變異系數。變異系數=標準差/平均值,變異系數可以消除數據大?。ㄒ?guī)模)給標準差帶來的影響
- 通過直方圖可以直觀查看數據分布
- 矩陣表
| 維度 | “快照”視點 | “趨勢”視點 |
|---|---|---|
| 大小/比例維度 | ||
| 波動維度 |
第3章 采用交叉視點,鎖定“原因”
前兩章是對現狀更加清晰的了解,但仍屬于“整理數據”的范疇,第3章的原因分析才開始真正“分析數據”
- 相關分析。散點圖和相關系數??上扔嬎阆嚓P系數,對重要內容繪制散點圖確認。相關系數一般達到0.5或0.7即相關。
- WHY模型 ①尋找接近結果的原因,在關聯更密切的數據之間考察相關關系;②選擇能夠采取對策的原因,找到原因以后要可控制可解決
-
兩種相關分析模式。第1種,找出對最終目標具有密切影響的原因;第2種,在某個業(yè)務流程中找出瓶頸
圖2 相關分析模式1

圖3 相關分析模式2
- 得出結論時的4大誤區(qū):①因果關系。相關關系不等于因果關系;②疑似相關。找到更直接的原因,兩個高相關的數據中間可能有更密切的要素;③數據范圍。數據的相關性可能在指定范圍內表現,從全局來看也許不明顯;④離群值。沒有明確理由不可刪除離群值
圖4是“討論及實施對策”前所有步驟的舉例總結,包括如何拆解一個大變量和如何找到影響細分指標的原因

圖4 解決問題的故事構造
第4章 制定對策,要依據“方程式”
將第3章提及的“相關”量化
- 一元線性回歸。R2(相關系數的平方),R2 一般達0.25或0.49即表示線性回歸方程擬合良好,有可解釋性?;貧w時注意:①數據之間必須具有單純的比例關系;②離群值以及不同的數據選擇范圍,會導致分析結果產生很大不同
- 用相關分析判斷數據關聯的緊密程度,用回歸分析判斷其影響大小
第5章 用數據講故事
- 把解決問題的過程展現出來,把精力用來考慮“核心信息是什么”“對方想知道什么”
- 隨時與相關人員分享分析的過程,必要時與他們展開討論,了解對方的想法和困惑
- 高級技能簡介。多元回歸,注意多重共線性的問題;假設檢驗,能夠幫助我們了解自己所使用的數據范圍的局限,并在此基礎上進行分析
感謝閱讀,歡迎點贊
