《如何用數據解決實際問題》(柏木吉基 著)筆記

知識點總結


如何用數據解決實際問題

第1章 解決問題,你需要“流程”

圖1 解決問題的流程
  • 目的:針對“原因是什么,需要采取哪些行動”等問題得出結論
  • 問題:思考“怎樣才是最理想的狀態(tài)”,現狀與理想狀態(tài)之間的差距就是問題
  • 通過“假設”分解問題和尋找原因,再收集證據(數據)證明或推翻假設。難以收集全部數據是很正常的,但也不應該根據“現有數據”來開始所有的工作,需要設法借用相同或相近的數據來代替理論上所需的數據

第2章 分解數據,找到“問題的關鍵”

  • 趨勢:捕捉數據在一段時間內的變化
  • 快照:截取某個期間的情況,查看指標在期間內的大小、比例和分布等
  • WHAT型假設 將較大變量分解為具體指標,找到最小的具體指標以后再通過維度拆分
  • 平均值&中位數
指標 優(yōu)點 缺點
平均值 能夠用一個數值表現整體的“大小”
易于計算及使用
平均之后,看不出來原始數據
存在極大(或極?。抵禃r,會受其影響
中位數 不受離群值影響,用位于中間的數據表示 表示整體“大小”的程度不夠精確(因為消除了離群值的影響)
與平均值相同,看不出來原始數據
  • 平均值會忽略“數據構成要素的差異”,可能會使讀者誤入“辛普森悖論”
  • 標準差。體現數據波動,前提是兩個數據大小相當或相同
  • 變異系數。變異系數=標準差/平均值,變異系數可以消除數據大?。ㄒ?guī)模)給標準差帶來的影響
  • 通過直方圖可以直觀查看數據分布
  • 矩陣表
維度 “快照”視點 “趨勢”視點
大小/比例維度
波動維度

第3章 采用交叉視點,鎖定“原因”

前兩章是對現狀更加清晰的了解,但仍屬于“整理數據”的范疇,第3章的原因分析才開始真正“分析數據”

  • 相關分析。散點圖和相關系數??上扔嬎阆嚓P系數,對重要內容繪制散點圖確認。相關系數一般達到0.5或0.7即相關。
  • WHY模型 ①尋找接近結果的原因,在關聯更密切的數據之間考察相關關系;②選擇能夠采取對策的原因,找到原因以后要可控制可解決
  • 兩種相關分析模式。第1種,找出對最終目標具有密切影響的原因;第2種,在某個業(yè)務流程中找出瓶頸


    圖2 相關分析模式1
圖3 相關分析模式2
  • 得出結論時的4大誤區(qū):①因果關系。相關關系不等于因果關系;②疑似相關。找到更直接的原因,兩個高相關的數據中間可能有更密切的要素;③數據范圍。數據的相關性可能在指定范圍內表現,從全局來看也許不明顯;④離群值。沒有明確理由不可刪除離群值

圖4是“討論及實施對策”前所有步驟的舉例總結,包括如何拆解一個大變量和如何找到影響細分指標的原因


圖4 解決問題的故事構造

第4章 制定對策,要依據“方程式”

將第3章提及的“相關”量化

  • 一元線性回歸。R2(相關系數的平方),R2 一般達0.25或0.49即表示線性回歸方程擬合良好,有可解釋性?;貧w時注意:①數據之間必須具有單純的比例關系;②離群值以及不同的數據選擇范圍,會導致分析結果產生很大不同
  • 用相關分析判斷數據關聯的緊密程度,用回歸分析判斷其影響大小

第5章 用數據講故事

  • 把解決問題的過程展現出來,把精力用來考慮“核心信息是什么”“對方想知道什么”
  • 隨時與相關人員分享分析的過程,必要時與他們展開討論,了解對方的想法和困惑
  • 高級技能簡介。多元回歸,注意多重共線性的問題;假設檢驗,能夠幫助我們了解自己所使用的數據范圍的局限,并在此基礎上進行分析

感謝閱讀,歡迎點贊

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容