4 數(shù)據(jù)分析的開胃菜:數(shù)據(jù)清理

大數(shù)據(jù),從小筆記開始


數(shù)據(jù)清理是很有必要的,特別是大數(shù)據(jù)年代。目前我們僅有5%的數(shù)據(jù)經(jīng)過分析,而且隨著數(shù)據(jù)總量越來越大,越來越多的數(shù)據(jù)需要我們?nèi)ズY選、甄別和處理。

數(shù)據(jù)清理有三大點,

第一點,就是加強數(shù)據(jù)的可信度。

* 數(shù)據(jù)對我們處理的問題要有較高關(guān)聯(lián)度

* 該數(shù)據(jù)要新鮮,過期的數(shù)據(jù)使用要慎重

* 要考慮技術(shù)和社會的改變與發(fā)展

第二點,簡化流程,提供可處理的數(shù)據(jù)

* 識別數(shù)據(jù)

* 數(shù)據(jù)結(jié)構(gòu)化

* 清理無關(guān)數(shù)據(jù)

* 增加需要的變量

* 檢驗統(tǒng)一性

* 發(fā)布數(shù)據(jù)

第三點,使之能簡單地向雇員和利益相關(guān)者展示

* 混合使用數(shù)據(jù)視覺化和機器學(xué)習(xí)來簡化數(shù)據(jù)

* 用你員工熟悉的工具

* 加強新技術(shù)和新工具的培訓(xùn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容