數(shù)據(jù)質(zhì)量面試題庫:2024年大廠高頻考點(diǎn),附詳細(xì)答案

數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理的核心,也是面試必問的內(nèi)容。

我整理了20多家大廠面試中出現(xiàn)的數(shù)據(jù)質(zhì)量高頻問題,按模塊分類,附參考答案。

建議收藏,面試前看一遍。

一、數(shù)據(jù)質(zhì)量六維度(必問)

  1. 數(shù)據(jù)質(zhì)量有哪些評估維度?

六大維度:

維度
定義
舉例
完整性
數(shù)據(jù)完整程度
字段非空率、記錄完整率
準(zhǔn)確性
數(shù)據(jù)真實(shí)準(zhǔn)確程度
值域校驗(yàn)、格式校驗(yàn)
一致性
跨系統(tǒng)數(shù)據(jù)統(tǒng)一程度
編碼統(tǒng)一、跨表一致性
唯一性
數(shù)據(jù)無重復(fù)程度
主鍵唯一性
及時性
數(shù)據(jù)及時更新程度
T+1按時產(chǎn)出
有效性
數(shù)據(jù)符合業(yè)務(wù)規(guī)則程度
外鍵關(guān)聯(lián)、狀態(tài)有效

面試追問:你們怎么計算綜合質(zhì)量分?

參考答案:六個維度加權(quán)求和,權(quán)重根據(jù)業(yè)務(wù)重要性配置。比如財務(wù)數(shù)據(jù)準(zhǔn)確性權(quán)重高,業(yè)務(wù)數(shù)據(jù)完整性權(quán)重高。

  1. 你們怎么評估數(shù)據(jù)質(zhì)量的好壞?

回答框架:

  1. 定義標(biāo)準(zhǔn):每個質(zhì)量維度有明確的合格線(如>=90分)
  2. 自動檢測:配置質(zhì)檢規(guī)則,自動跑數(shù)據(jù)質(zhì)量檢查
  3. 生成報告:六維度評分 + 問題明細(xì)
  4. 問題閉環(huán):通過工單系統(tǒng)推動整改

加分點(diǎn):能說出具體工具或自研平臺的實(shí)現(xiàn)邏輯。

二、質(zhì)檢函數(shù)與質(zhì)檢規(guī)則(核心)

  1. 質(zhì)檢函數(shù)是什么?怎么設(shè)計?

質(zhì)檢函數(shù)是數(shù)據(jù)質(zhì)量檢查的最小單元,分為預(yù)置函數(shù)和自定義函數(shù)。

常見預(yù)置函數(shù):

函數(shù)
檢查內(nèi)容
SQL邏輯
IS_NULL
字段是否為空
COUNT() WHERE col IS NULL
IS_UNIQUE
字段值是否唯一
HAVING COUNT(
) > 1
IN_RANGE
值是否在范圍
WHERE col NOT BETWEEN min AND max
MATCH_REGEX
格式校驗(yàn)
WHERE col NOT REGEXP 'pattern'
IN_CODE_TABLE
枚舉值校驗(yàn)
WHERE col NOT IN (SELECT code FROM碼表)

自定義函數(shù)示例(訂單金額合理性):

-- 規(guī)則:單筆訂單不能超過客戶信用額度的200%
SELECT order_id, customer_id, order_amount
FROM orders o
JOIN customer c ON o.customer_id = c.customer_id
WHERE o.order_amount > c.credit_limit *2

  1. 質(zhì)檢規(guī)則和質(zhì)檢函數(shù)的區(qū)別?

核心區(qū)別:

質(zhì)檢函數(shù)
:定義「怎么檢查」,是原子能力
質(zhì)檢規(guī)則
:定義「檢查什么對象,用什么閾值」,是場景化配置

規(guī)則 = 函數(shù) + 對象 + 閾值

舉例:

函數(shù):IS_NULL(非空檢查)
對象:orders.order_id(訂單表主鍵)
閾值:0(不允許為空)
規(guī)則:訂單主鍵不允許為空

  1. 怎么設(shè)計一個數(shù)據(jù)質(zhì)量檢查流程?

四步流程:

  1. 定義質(zhì)檢函數(shù)(非空、唯一、范圍...)
  2. 配置質(zhì)檢規(guī)則(函數(shù)+對象+閾值)
  3. 組合形成質(zhì)檢模型
  4. 調(diào)度執(zhí)行 → 生成質(zhì)量報告 → 觸發(fā)問題工單

面試加分:能畫出完整的質(zhì)檢流程圖,說明每個環(huán)節(jié)的職責(zé)。

三、質(zhì)檢模型與質(zhì)量報告(高頻追問)

  1. 質(zhì)檢模型是什么?怎么組合規(guī)則?

質(zhì)檢模型是質(zhì)檢規(guī)則的組合,用于批量檢查某一類數(shù)據(jù)。

舉例:

模型:交易數(shù)據(jù)質(zhì)量模型
規(guī)則:
訂單金額不為空
訂單金額大于0
訂單金額不超過信用額度200%
下單時間格式正確
訂單狀態(tài)在有效枚舉范圍內(nèi)

模型可以設(shè)置權(quán)重,比如金額準(zhǔn)確性權(quán)重60%,時間及時性權(quán)重40%。

  1. 質(zhì)量報告包含哪些內(nèi)容?

標(biāo)準(zhǔn)質(zhì)量報告結(jié)構(gòu):

  1. 六維度評分(完整性、準(zhǔn)確性、一致性、唯一性、及時性、有效性)
  2. 綜合質(zhì)量分
  3. 達(dá)標(biāo)情況統(tǒng)計(合格/警告/不合格)
  4. 問題明細(xì)列表
  5. 問題趨勢分析(環(huán)比/同比)
  6. Top問題表/字段清單

面試追問:質(zhì)量分怎么計算的?

參考答案:加權(quán)求和模型。每個維度權(quán)重根據(jù)業(yè)務(wù)重要性配置,比如財務(wù)數(shù)據(jù)「準(zhǔn)確性」權(quán)重最高,業(yè)務(wù)數(shù)據(jù)「及時性」權(quán)重最高。

  1. 數(shù)據(jù)質(zhì)量問題怎么處理?

閉環(huán)流程:

發(fā)現(xiàn)問題 → 創(chuàng)建工單 → 派發(fā)給責(zé)任人 → 處理中 → 待驗(yàn)證 → 已關(guān)閉

關(guān)鍵點(diǎn):

問題記錄要完整:問題描述、影響范圍、產(chǎn)生原因、處理記錄
超時未處理要升級
處理結(jié)果要驗(yàn)證

四、實(shí)際場景問題(最難)

  1. 實(shí)時數(shù)據(jù)和批量數(shù)據(jù)怎么分別做質(zhì)量檢查?

實(shí)時數(shù)據(jù)(T+0):

采用流式處理:Kafka + Flink
消息隊(duì)列層做校驗(yàn),不合格直接攔截或打標(biāo)簽
延遲敏感,質(zhì)檢邏輯要輕量

批量數(shù)據(jù)(T+1):

凌晨調(diào)度執(zhí)行
完整SQL檢查,覆蓋率高
檢查結(jié)果寫質(zhì)量報告,推送告警

核心區(qū)別:實(shí)時重在攔截,批量重在發(fā)現(xiàn)。

  1. 跨系統(tǒng)數(shù)據(jù)不一致怎么排查?

排查思路:

  1. 確定問題范圍:哪些表/字段不一致
  2. 追溯數(shù)據(jù)鏈路:從源頭到終點(diǎn)的每個節(jié)點(diǎn)
  3. 對比數(shù)據(jù)內(nèi)容:逐條對比,找差異點(diǎn)
  4. 定位原因:同步延遲?轉(zhuǎn)換邏輯錯誤?業(yè)務(wù)數(shù)據(jù)錯誤?

常用方法:

數(shù)據(jù)血緣追溯:從ODS到ADS全鏈路看
數(shù)據(jù)比對:兩邊數(shù)據(jù)做minus/intersect
日志排查:看ETL任務(wù)的執(zhí)行日志

  1. 數(shù)據(jù)質(zhì)量差會有什么后果?

從業(yè)務(wù)到技術(shù)的全面影響:

影響層面
具體表現(xiàn)
業(yè)務(wù)決策
報表數(shù)據(jù)失真,管理層判斷失誤
運(yùn)營效率
客服成本增加,用戶體驗(yàn)下降
合規(guī)風(fēng)險
監(jiān)管數(shù)據(jù)不合格,被監(jiān)管處罰
技術(shù)成本
數(shù)據(jù)修復(fù)返工,浪費(fèi)大量人力

經(jīng)典案例:某電商因?yàn)樯唐穾齑鏀?shù)據(jù)不準(zhǔn),超賣10萬單,賠償損失上百萬。

  1. 怎么推動業(yè)務(wù)方重視數(shù)據(jù)質(zhì)量?

這是個常見但很難答好的問題。

核心思路:讓業(yè)務(wù)方看到數(shù)據(jù)質(zhì)量的價值

量化價值
:數(shù)據(jù)質(zhì)量提升X%,業(yè)務(wù)轉(zhuǎn)化提升Y%
關(guān)聯(lián)考核
:把數(shù)據(jù)質(zhì)量納入業(yè)務(wù)KPI
服務(wù)化
:提供質(zhì)檢工具,讓業(yè)務(wù)方自助檢查
自動化
:嵌入學(xué)控平臺,出問題自動告警

反問面試官:我們公司目前數(shù)據(jù)質(zhì)量治理的痛點(diǎn)是什么?我可以針對性地聊聊。

  1. 怎么判斷數(shù)據(jù)質(zhì)量問題是系統(tǒng)問題還是業(yè)務(wù)問題?

判斷方法:

特征
系統(tǒng)問題
業(yè)務(wù)問題
數(shù)據(jù)規(guī)律
批量失敗,符合某種模式
零星發(fā)生,無明顯規(guī)律
發(fā)生時間
某個時間點(diǎn)突然出現(xiàn)
持續(xù)存在或逐漸累積
影響范圍
影響整批數(shù)據(jù)
影響個別記錄
復(fù)現(xiàn)方式
固定條件下可復(fù)現(xiàn)
難以復(fù)現(xiàn)

實(shí)操:拉取問題數(shù)據(jù)的明細(xì),看時間分布、業(yè)務(wù)類型分布、字段值分布。

五、實(shí)戰(zhàn)經(jīng)驗(yàn)問題(加分項(xiàng))

  1. 你從0到1搭建過數(shù)據(jù)質(zhì)量體系嗎?

STAR法則回答:

S(背景):業(yè)務(wù)數(shù)據(jù)質(zhì)量差,報表數(shù)據(jù)不準(zhǔn),影響決策
T(任務(wù)):需要搭建數(shù)據(jù)質(zhì)量管理體系
A(行動):設(shè)計質(zhì)檢模型,配置質(zhì)檢規(guī)則,落地工單閉環(huán)
R(結(jié)果):數(shù)據(jù)質(zhì)量分從60分提升到90分,報表投訴減少80%

面試官想聽的重點(diǎn):

你為什么這么設(shè)計?不是工具羅列
你踩過什么坑?怎么解決的?
業(yè)務(wù)方配合嗎?怎么推動的?

  1. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理是什么關(guān)系?

標(biāo)準(zhǔn)回答:

數(shù)據(jù)治理 > 數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)治理包含:

  • 數(shù)據(jù)標(biāo)準(zhǔn)管理
  • 元數(shù)據(jù)管理
  • 數(shù)據(jù)質(zhì)量管理 ← 你在這
  • 數(shù)據(jù)安全管理
  • 數(shù)據(jù)生命周期管理

補(bǔ)充:數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理的核心目標(biāo)之一,也是最能直接體現(xiàn)治理效果的模塊。

總結(jié)

數(shù)據(jù)質(zhì)量面試核心考察三點(diǎn):

概念理解:六維度、質(zhì)檢函數(shù)、質(zhì)檢規(guī)則、質(zhì)檢模型
實(shí)操經(jīng)驗(yàn):規(guī)則怎么配置、質(zhì)量報告怎么看、問題怎么閉環(huán)
體系思維:數(shù)據(jù)質(zhì)量在數(shù)據(jù)治理中的位置,怎么推動落地

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容