數(shù)據(jù)產(chǎn)品經(jīng)理_數(shù)據(jù)清洗

數(shù)據(jù)清洗原理

利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。簡(jiǎn)單來說,數(shù)據(jù)清理是將數(shù)據(jù)庫(kù)精簡(jiǎn)以除去重復(fù)記錄,并使剩余部分轉(zhuǎn)換成標(biāo)準(zhǔn)可接收格式的過程。

數(shù)據(jù)缺失

1)定范圍:了解數(shù)據(jù)庫(kù)哪些字段缺失,缺失比例如何?重要性如何?是補(bǔ)充還是去掉?

2)刪字段:刪除沒用的、難以補(bǔ)齊的

3)補(bǔ)數(shù)據(jù):多數(shù)情況下,缺失的值要手工填入(即手工清理),靠業(yè)務(wù)知識(shí)/經(jīng)驗(yàn)填充或從本數(shù)據(jù)源/其他數(shù)據(jù)源推導(dǎo)出來

數(shù)據(jù)異常

1)格式:如時(shí)間/時(shí)期統(tǒng)一方式去規(guī)整等

2)字符:如半角/圓角;數(shù)據(jù)與字段對(duì)應(yīng)等

3)合理性:如年齡輸入200,則為不合理數(shù)據(jù)

4)一致性:如年齡或出生年月要與身份證字段相互印證

歸一化

1)含義:把絕對(duì)的數(shù)量改變成相對(duì)的數(shù)量,本質(zhì)是將帶有單位的絕對(duì)數(shù)量換成沒有單位的相對(duì)數(shù)量,純粹對(duì)比大小和比例關(guān)系

2)歸一化原因:① 去量綱操作 ② 避免極值問題

3)歸一化方法:

① 最值歸一化:使用一組數(shù)據(jù)中最大值和最小值進(jìn)行歸一化策略,適用于有限定范圍的數(shù)據(jù)

② 均值方差歸一化:無明顯邊界的數(shù)據(jù),正態(tài)分布數(shù)據(jù)為優(yōu)

③ 非線性歸一化:處理極值情況

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 點(diǎn)擊查看原文 Web SDK 開發(fā)手冊(cè) SDK 概述 網(wǎng)易云信 SDK 為 Web 應(yīng)用提供一個(gè)完善的 IM 系統(tǒng)...
    layjoy閱讀 14,314評(píng)論 0 15
  • 《數(shù)據(jù)處理的SPSS和SAS EG實(shí)現(xiàn)》的讀書筆記 作 者:經(jīng)管之家、曹正鳳 出版社:電子工業(yè)出版社 版 次:...
    格式化_001閱讀 2,558評(píng)論 1 7
  • 柳萌萌抬起頭望一眼藍(lán)天,藍(lán)天藍(lán)的透出一片安靜,懶得理這些怨天的百姓。有什么可怨的呢?要怨就怨春風(fēng)。春風(fēng)吹來蠢蠢欲動(dòng)...
    天賦還沒用到閱讀 265評(píng)論 0 5
  • 竹簡(jiǎn)上的墨色差異使?jié)h字表現(xiàn)出字跡。 一枚竹簡(jiǎn),觀看者是從竹簡(jiǎn)上的墨跡深色與竹簡(jiǎn)的淺色對(duì)比才看出竹簡(jiǎn)上的文字筆畫,從...
    靜月園閱讀 662評(píng)論 1 8
  • 幼年, 因聚在父母翼下過日子的時(shí)光,多么的溫柔,又多么的匆匆。 成年, 這家飄散了像一縷輕煙般,彌漫各處,翩翩而舞...
    平張平閱讀 196評(píng)論 0 2

友情鏈接更多精彩內(nèi)容