數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊(cè)讀書筆記-上

【提綱】

一、初識(shí)數(shù)據(jù)產(chǎn)品經(jīng)理? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 二、數(shù)據(jù)產(chǎn)品經(jīng)理基礎(chǔ)知識(shí)

三、數(shù)據(jù)分析思維? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 四、數(shù)據(jù)倉庫理論與應(yīng)用

五、大數(shù)據(jù)分析平臺(tái)實(shí)戰(zhàn)? ? ? ? ? ? ? ? ? ? ? ? ? 六、用戶行為分析平臺(tái)實(shí)戰(zhàn)

七、ABTest平臺(tái)構(gòu)建? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 八、各領(lǐng)域中應(yīng)用

【第一章】初識(shí)數(shù)據(jù)產(chǎn)品經(jīng)理

一、Why?行業(yè)現(xiàn)狀

二、日常工作:從業(yè)務(wù)出發(fā);產(chǎn)品原型與需求文檔;與研發(fā)工程師做朋友;多喝用戶聊聊

三、思維方式:歸納與演繹思維;數(shù)據(jù)思維;用戶思維;產(chǎn)品思維;工程思維;5W2H,SMART,TodoList

【第二章】數(shù)據(jù)產(chǎn)品經(jīng)理基礎(chǔ)知識(shí)

一、常用工具:Excel、SQL、R、Axure、Visio

二、產(chǎn)品需求管理:需求來源與需求判斷、需求池管理、需求跟進(jìn)與需求落地

三、軟實(shí)力:快速成長(zhǎng)能力、溝通表達(dá)能力、推動(dòng)項(xiàng)目能力、數(shù)據(jù)感知能力

【第三章】數(shù)據(jù)分析思維與實(shí)戰(zhàn)

一、數(shù)據(jù)產(chǎn)品VS數(shù)據(jù)分析:崗位職責(zé)、具備素質(zhì)

1、數(shù)據(jù)產(chǎn)品:規(guī)劃并定義適合公司業(yè)務(wù)發(fā)展的數(shù)據(jù)產(chǎn)品;產(chǎn)品經(jīng)理通用能力;數(shù)據(jù)分析能力

2、數(shù)據(jù)分析:數(shù)據(jù)敏感與數(shù)據(jù)分析方法;常用分析工具;對(duì)業(yè)務(wù)和產(chǎn)品要有深刻理解

二、常用分析方法:常規(guī)分析、統(tǒng)計(jì)模型分析、自建模型分析

【第四章】數(shù)據(jù)倉庫理論與應(yīng)用

一、Hadoop

1、三駕馬車:HDFS(解決存儲(chǔ)問題)、MapReduce(高效處理數(shù)據(jù))、HBase

圖片發(fā)自簡(jiǎn)書App

(1)流行的兩大數(shù)據(jù)處理框架:Hadoop、Spark。兩者關(guān)系:既合作補(bǔ)充,又存在競(jìng)

圖片發(fā)自簡(jiǎn)書App

(2)幾個(gè)基礎(chǔ)工具了解:

? ? ? ? A:Spark:開源的集群計(jì)算環(huán)境。啟用了內(nèi)存分布數(shù)據(jù)集,在處理某些工作負(fù)載方面表現(xiàn)更優(yōu)越,交互更友好

? ? ? ? B:Kafka:高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可處理各大網(wǎng)站、APP中用戶的動(dòng)作流數(shù)據(jù)。Kafka集群上的消息是有時(shí)效性的,可以對(duì)發(fā)布上來的消息設(shè)置一個(gè)過期時(shí)間,不管有沒有被消費(fèi),超過過期時(shí)間的消息都會(huì)被清空。

? ? ? ? C:Storm:主要應(yīng)用于分布式數(shù)據(jù)處理,包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、信息流處理、連續(xù)性計(jì)算、ETL。Storm還可應(yīng)用于實(shí)時(shí)處理,被稱為實(shí)時(shí)版的Hadoop

? ? ? ? D:HBase:是一個(gè)構(gòu)建于HDFS上的分布式、面向列的存儲(chǔ)系統(tǒng)。以key-value對(duì)的方式存儲(chǔ)數(shù)據(jù)并對(duì)存取操作做優(yōu)化,能飛快根據(jù)key獲取綁定的數(shù)據(jù)

? ? ? ? E:HUE:是Cloudera的大數(shù)據(jù)web可視化工具,主要用來簡(jiǎn)化用戶和hadoop集群的交互??稍趙eb頁面把數(shù)據(jù)從HDFS等系統(tǒng)導(dǎo)入hive中,可直接通過HUE以HiveSQL的方式對(duì)數(shù)據(jù)查詢展現(xiàn)

? ? ? ? F:Oozie:工作流調(diào)度系統(tǒng),統(tǒng)一管理工作流的調(diào)度順序、安排任務(wù)的執(zhí)行時(shí)間等,用來管理Hadoop任務(wù)。Oozie集成了Hadoop的MapReduce、Pig、Hive等協(xié)議以及Java、Shell腳本等任務(wù),底層仍然是一個(gè)MapReduce程序

? ? ? G:ZooKeeper:是Hadoop和HBase的重要組件,是一個(gè)分布式開放的應(yīng)用程序協(xié)調(diào)服務(wù),主要為應(yīng)用提供配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等一致性服務(wù)

? ? ? H:YARN:保證工具有序地運(yùn)行在同一個(gè)集群上,需要一個(gè)調(diào)度系統(tǒng)進(jìn)行協(xié)調(diào)指揮

圖片發(fā)自簡(jiǎn)書App

二、大數(shù)據(jù)平臺(tái)層級(jí)結(jié)構(gòu)

圖片發(fā)自簡(jiǎn)書App

1、原始數(shù)據(jù)層(ODS層):當(dāng)前的、不斷變化的數(shù)據(jù)。ODS層按分鐘級(jí)別捕捉 生產(chǎn)系統(tǒng)的數(shù)據(jù)變化,然后每天將歸檔后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中,歸檔的標(biāo)記為這條記錄是否已完成。ODS層的作用:

? (1)在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個(gè)隔離層

? (2)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細(xì)節(jié)查詢的功能

? (3)完成數(shù)據(jù)倉庫中不能完成的一些功能

2、數(shù)據(jù)倉庫層:保留歷史的、不再變化的數(shù)據(jù),所以一半會(huì)落后ODS層一天活一天以上的數(shù)據(jù)。DW本身不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何數(shù)據(jù),數(shù)據(jù)來源于外部、并開放給外部應(yīng)用。

? (1)特點(diǎn):面向主題的;集成的;不可更新的

? (2)滿足要求:效率足夠高;數(shù)據(jù)質(zhì)量;可擴(kuò)展性

? (3)主要分層:基礎(chǔ)層、主題層、數(shù)據(jù)集市層

? ? ? ? ? ? A:基礎(chǔ)層:輕度匯總,產(chǎn)出輕度匯總明細(xì)、維度表、碼表、事實(shí)集等

? ? ? ? ? ? ? ? ? 建模層次劃分:業(yè)務(wù)模型 -> 領(lǐng)域模型 -> 邏輯模型 -> 物理模型

? ? ? ? ? ? B:主題層:高度聚合層(按照一定維度和業(yè)務(wù)邏輯),不存在明細(xì)數(shù)據(jù)了

? ? ? ? ? ? C:數(shù)據(jù)集市層:將基礎(chǔ)層、主題層的數(shù)據(jù) 按各業(yè)務(wù)需求進(jìn)行聚合,生成寬表和Cube,直接推送給數(shù)據(jù)分析師和業(yè)務(wù)部門使用。結(jié)構(gòu):星型、雪花。

三、數(shù)據(jù)埋點(diǎn)

1、埋點(diǎn)方式

? ? (1)有代碼埋點(diǎn)、可視化埋點(diǎn)、無埋點(diǎn)

? ? (2)客戶端前端埋點(diǎn)(全面、記錄不需要請(qǐng)求服務(wù)器的操作行為)、服務(wù)器后端埋點(diǎn)(實(shí)時(shí)、準(zhǔn)確,用戶需要請(qǐng)求服務(wù)器關(guān)鍵業(yè)務(wù)最好使用該方式。eg:在線播放、游戲安裝etc)

2、埋點(diǎn)事件

? ? (1)類型:點(diǎn)擊事件、曝光事件、頁面停留時(shí)長(zhǎng)

四、指標(biāo)字典

1、概念

2、指標(biāo)定義的規(guī)范

五、數(shù)據(jù)管理系統(tǒng)

1、數(shù)據(jù)質(zhì)量的重要性

圖片發(fā)自簡(jiǎn)書App

2、數(shù)據(jù)管理系統(tǒng)的質(zhì)量檢測(cè)

(1)失效性檢查

? ? ? ? ? A:當(dāng)天MySQL表和Hive表中的核心指標(biāo)是何時(shí)生成的?

? ? ? ? ? B:有哪些表的產(chǎn)出時(shí)間比預(yù)期時(shí)間延遲了?

? ? ? ? ? C:任務(wù)延遲的原因是由哪幾張表造成的?

? ? ? ? ? D:瓶頸在哪里??jī)?yōu)化哪幾層?哪幾張表可以提高核心指標(biāo)等的生成時(shí)間?

(2)一致性檢查

? ? ? ? ? Step1:建立數(shù)據(jù)依賴引擎,實(shí)現(xiàn)依賴圖譜

? ? ? ? ? Step2:計(jì)算數(shù)據(jù)準(zhǔn)備情況

? ? ? ? ? Step3:建立數(shù)據(jù)計(jì)算引擎

? ? ? ? ? Step4:建立數(shù)據(jù)比較引擎

3、數(shù)據(jù)管理系統(tǒng)的功能:數(shù)據(jù)流管理、任務(wù)管理、數(shù)據(jù)管理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容