讀數(shù)據(jù)工程之道:設計和構建健壯的數(shù)據(jù)系統(tǒng)28數(shù)據(jù)服務常見關注點

讀數(shù)據(jù)工程之道:設計和構建健壯的數(shù)據(jù)系統(tǒng)28數(shù)據(jù)服務常見關注點.png

1. 使用場景

1.1. 為分析和BI,也就是統(tǒng)計分析、報表和儀表板提供數(shù)據(jù)服務

  • 1.1.1. 是數(shù)據(jù)服務最為常見的目標

  • 1.1.2. 這些概念的提出早于IT和數(shù)據(jù)庫,但是它們對于了解業(yè)務、組織和財務流程的利益相關者來說仍然至關重要

1.2. 為機器學習應用程序提供數(shù)據(jù)服務

  • 1.2.1. 機器學習完全依賴于高質量的數(shù)據(jù)

  • 1.2.2. 數(shù)據(jù)科學家和機器學習工程師需要在數(shù)據(jù)工程師的幫助下來獲取、轉化以及交付必要的數(shù)據(jù),從而訓練模型

1.3. 為反向ETL提供數(shù)據(jù)服務

  • 1.3.1. 反向ETL是一種將數(shù)據(jù)回傳給數(shù)據(jù)源的過程

  • 1.3.2. 反向ETL和BI以及機器學習有著深度的共生關系

2. 常見關注點

2.1. 信任

  • 2.1.1. 人們需要相信你提供的數(shù)據(jù)

  • 2.1.2. 花20年建立的名譽可能只需要5分鐘就可以毀掉。如果你明白這一點,你就會換種方式做事情。

    • 2.1.2.1. 沃倫·巴菲特(Warren Buffett)
  • 2.1.3. 信任一旦丟失就極難挽回

    • 2.1.3.1. 不可避免的結局是業(yè)務方不能發(fā)揮數(shù)據(jù)的潛在價值,數(shù)據(jù)團隊也會丟失信譽(甚至被解散)
  • 2.1.4. 信任是提供數(shù)據(jù)服務的根本關注點

    • 2.1.4.1. 終端用戶需要信任他們接收的數(shù)據(jù)

    • 2.1.4.2. 失去信任通常是數(shù)據(jù)項目無聲的表鐘,即使這個項目直到幾個月或幾年后才正式取消

  • 2.1.5. 利用數(shù)據(jù)驗證流程以及數(shù)據(jù)可觀測性流程,同時與利益相關者一起目視檢查和確認數(shù)據(jù)有效性

    • 2.1.5.1. 數(shù)據(jù)驗證使用數(shù)據(jù)分析方法來保證數(shù)據(jù)可以忠實反映財務信息、客戶行為以及銷售記錄等信息

    • 2.1.5.2. 數(shù)據(jù)可觀測性提供了一個觀測數(shù)據(jù)和數(shù)據(jù)處理的持續(xù)視圖

  • 2.1.6. SLA和SLO也是工程師建立終端用戶和上游利益相關者信任的必要手段

    • 2.1.6.1. 當用戶開始依賴數(shù)據(jù)來完成業(yè)務需求時,會要求使用的數(shù)據(jù)有持續(xù)的可用性以及數(shù)據(jù)工程師保障的最新狀態(tài)

    • 2.1.6.2. 高質量的數(shù)據(jù)在沒有達到預期內的可用性時很難發(fā)揮輔助商業(yè)決策的價值

    • 2.1.6.3. SLA和SLO也可以采用正式或者非正式的數(shù)據(jù)契約形式

    • 2.1.6.4. SLA都給了用戶對于數(shù)據(jù)產(chǎn)品的預期

    • 2.1.6.5. SLO是SLA的關鍵部分,闡述了用于衡量契約的方法

  • 2.1.7. 一定要確保各方的預期是清晰的,并且你有能力驗證能否滿足約定的SLA和SLO

  • 2.1.8. 對SLA達成一致是不夠的

    • 2.1.8.1. 持續(xù)的溝通才能維持一個好的SLA:對可能對SLA和SLO預期有影響的事項進行溝通,并提供補救和改進措施

2.2. 用例是什么,用戶又是誰

  • 2.2.1. 需要了解你的用例和用戶、產(chǎn)出的數(shù)據(jù)產(chǎn)品以及如何提供數(shù)據(jù)服務(是否自助服務)、數(shù)據(jù)定義和邏輯,以及數(shù)據(jù)網(wǎng)格

  • 2.2.2. 數(shù)據(jù)服務層是為了數(shù)據(jù)的使用

    • 2.2.2.1. 數(shù)據(jù)在決策中的作用才是核心
  • 2.2.3. 數(shù)據(jù)的用例遠遠超出了查看報告和儀表板的范圍

    • 2.2.3.1. 一份數(shù)據(jù)往往被用于多個用例
  • 2.2.4. 高質量、高影響力的數(shù)據(jù)自然而然地會吸引很多很有趣的用例

  • 2.2.5. 盡量挑選有著最高ROI的用例

    • 2.2.5.1. 數(shù)據(jù)工程師喜歡糾結于他們搭建的系統(tǒng)的技術實現(xiàn)細節(jié),而忽略目的

    • 2.2.5.2. 當工程師能夠以價值和用例為導向時,產(chǎn)出就能更有價值和效率

      2.2.5.2.1. 很多工程師只想做最擅長的事情:搞工程

  • 2.2.6. 當開啟一個新的數(shù)據(jù)項目時,倒排工序是很有必要的

  • 2.2.7. 問自己的一些問題

    • 2.2.7.1. 誰會使用這些數(shù)據(jù)?怎么用?

    • 2.2.7.2. 利益相關者有什么期望?

    • 2.2.7.3. 怎么和數(shù)據(jù)利益相關者(數(shù)據(jù)科學家、分析師、業(yè)務用戶)合作,更好地了解這些數(shù)據(jù)的用途?

  • 2.2.8. 在開展數(shù)據(jù)工程的時候,一定要從用戶及其用例入手

    • 2.2.8.1. 在了解他們的期望和目標后,就會更容易產(chǎn)出優(yōu)秀的數(shù)據(jù)產(chǎn)品

2.3. 數(shù)據(jù)產(chǎn)品

  • 2.3.1. 數(shù)據(jù)產(chǎn)品的良好定義是能夠通過使用數(shù)據(jù)促成最終目標的產(chǎn)品。

    • 2.3.1.1. D.J.Patil
  • 2.3.2. 數(shù)據(jù)產(chǎn)品不是憑空產(chǎn)生的

    • 2.3.2.1. 開發(fā)數(shù)據(jù)產(chǎn)品像是一項需要全身心投入的運動,在技術的框架下混合了產(chǎn)品和業(yè)務

    • 2.3.2.2. 核心利益相關者參與數(shù)據(jù)產(chǎn)品的開發(fā)是非常重要的

    • 2.3.2.3. 一個好的數(shù)據(jù)產(chǎn)品應該有著正反饋循環(huán)

      2.3.2.3.1. 更多的數(shù)據(jù)產(chǎn)品使用產(chǎn)生更多的有用數(shù)據(jù),產(chǎn)品也因此得以改進

  • 2.3.3. 在大多數(shù)公司,數(shù)據(jù)工程師會負責除了終端用戶操作外的數(shù)據(jù)產(chǎn)品全流程

    • 2.3.3.1. 優(yōu)秀的數(shù)據(jù)工程師會盡力去了解提供給直接用戶(比如數(shù)據(jù)分析師、數(shù)據(jù)科學家或公司外部客戶)的產(chǎn)物
  • 2.3.4. 當創(chuàng)造一個數(shù)據(jù)產(chǎn)品時,應該從“完成任務”的角度思考

    • 2.3.4.1. 用戶為了“完成任務”才“雇用”數(shù)據(jù)產(chǎn)品

    • 2.3.4.2. 常犯的錯誤是在不了解終端用戶的需求或者沒有產(chǎn)品市場調研的情況下盲目開發(fā)

  • 2.3.5. 做人人都愛用的數(shù)據(jù)產(chǎn)品是很難的

    • 2.3.5.1. 沒用的特性和失信的數(shù)據(jù)會破壞數(shù)據(jù)產(chǎn)品的采用

    • 2.3.5.2. 需要專注在數(shù)據(jù)產(chǎn)品的采用和利用上,并且愿意做出令用戶滿意的調整

2.4. 是否用自助服務

  • 2.4.1. 讓用戶可以自己構建數(shù)據(jù)產(chǎn)品

  • 2.4.2. 落地難度高,數(shù)據(jù)自助服務項目容易虎頭蛇尾

  • 2.4.3. 如果面向的用戶是高管級別的,他們想知道業(yè)務運行情況,那么一個清晰且有著可操作指標的預定義儀表板往往就足夠了

    • 2.4.3.1. 如果報告揭示了更多問題,那么他們可能會找分析師來深挖數(shù)據(jù)
  • 2.4.4. 成功搭建自助服務數(shù)據(jù)項目從找對受眾開始,識別自助服務用戶和他們要做的“工作”

  • 2.4.5. 具備數(shù)據(jù)相關技術背景的業(yè)務主管,他們就很適合自助服務,他們可能想要自己對數(shù)據(jù)進行切片,而又不重拾SQL技能

  • 2.4.6. 構建好的數(shù)據(jù)自助服務要確定如何為特定用戶提供數(shù)據(jù)服務

  • 2.4.7. 更多的數(shù)據(jù)帶來更多的問題,而這又需要更多的數(shù)據(jù)來解決

  • 2.4.8. 需要理解靈活性和范圍之間的微妙平衡,這將有助于你的受眾找到價值和洞見,而不會產(chǎn)生錯誤的結果和混亂

2.5. 數(shù)據(jù)定義和邏輯

  • 2.5.1. 組織中利用數(shù)據(jù)看重的是它的準確性和可信度

    • 2.5.1.1. 數(shù)據(jù)的準確性不僅僅是對源系統(tǒng)中事件值的忠實再現(xiàn)

    • 2.5.1.2. 數(shù)據(jù)準確性包括了準確的數(shù)據(jù)定義和邏輯,這兩個要素必須融入數(shù)據(jù)的全生命周期,從源系統(tǒng)到數(shù)據(jù)管道,再到BI工具等

  • 2.5.2. 數(shù)據(jù)定義指的是數(shù)據(jù)在一個組織中的共識

  • 2.5.3. 數(shù)據(jù)邏輯規(guī)定了指標計算公式

    • 2.5.3.1. 合適的邏輯必須融匯數(shù)據(jù)定義以及完整的統(tǒng)計方法

    • 2.5.3.2. 要計算客戶流失率指標,就需要定義誰是客戶

    • 2.5.3.3. 要計算凈利潤,就需要一系列的規(guī)則來規(guī)定從收入總額扣除哪些支出

  • 2.5.4. 數(shù)據(jù)定義和邏輯的存在經(jīng)常被認為是理所當然的,并且在組織內以組織知識(institutional

knowledge)的形式傳播

  • 2.5.5. 組織知識有著自己的生態(tài),很大程度上會以“奇聞”取代數(shù)據(jù)推動的洞見、決策和行動

  • 2.5.6. 數(shù)據(jù)定義體現(xiàn)為多種形式,有些是顯式的,但是多數(shù)是隱式的

    • 2.5.6.1. 隱式是指為查詢、儀表板或者機器學習提供數(shù)據(jù)服務時,數(shù)據(jù)和指標總是可以被持續(xù)準確地展示
  • 2.5.7. 語義層可以整合業(yè)務定義和邏輯,使其可復用

    • 2.5.7.1. 一次建設,全局通用

    • 2.5.7.2. 范式是建設指標、計算規(guī)則和邏輯的面向對象思想的體現(xiàn)

2.6. 數(shù)據(jù)網(wǎng)格

  • 2.6.1. 一種日益流行的數(shù)據(jù)服務提供方式

  • 2.6.2. 數(shù)據(jù)網(wǎng)格從根本上改變了組織內部的數(shù)據(jù)服務提供方式

  • 2.6.3. 與孤立的數(shù)據(jù)團隊服務于內部成員不同,數(shù)據(jù)網(wǎng)格需要每個業(yè)務領域的團隊同時擔負起去中心化的、點對點的數(shù)據(jù)服務的責任

    • 2.6.3.1. 團隊要對其他團隊的數(shù)據(jù)消費負責

    • 2.6.3.2. 數(shù)據(jù)必須都是開箱即用的

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容