大數(shù)據(jù),從小筆記開始
數(shù)據(jù)清理是很有必要的,特別是大數(shù)據(jù)年代。目前我們僅有5%的數(shù)據(jù)經(jīng)過分析,而且隨著數(shù)據(jù)總量越來越大,越來越多的數(shù)據(jù)需要我們?nèi)ズY選、甄別和處理。
數(shù)據(jù)清理有三大點,
第一點,就是加強數(shù)據(jù)的可信度。
* 數(shù)據(jù)對我們處理的問題要有較高關(guān)聯(lián)度
* 該數(shù)據(jù)要新鮮,過期的數(shù)據(jù)使用要慎重
* 要考慮技術(shù)和社會的改變與發(fā)展
第二點,簡化流程,提供可處理的數(shù)據(jù)
* 識別數(shù)據(jù)
* 數(shù)據(jù)結(jié)構(gòu)化
* 清理無關(guān)數(shù)據(jù)
* 增加需要的變量
* 檢驗統(tǒng)一性
* 發(fā)布數(shù)據(jù)
第三點,使之能簡單地向雇員和利益相關(guān)者展示
* 混合使用數(shù)據(jù)視覺化和機器學(xué)習(xí)來簡化數(shù)據(jù)
* 用你員工熟悉的工具
* 加強新技術(shù)和新工具的培訓(xùn)