數(shù)據(jù)清洗小結(jié)

表觀處理

去重:將重復(fù)的數(shù)據(jù)去除掉

合并:將不同的數(shù)據(jù)表合并在一起,組成‘大’維度表

深入處理

缺失值:該部分處理是整個數(shù)據(jù)挖掘過程都需要反復(fù)考慮的事;根據(jù)特征缺失值占比多少,決定是填充還是直接刪了;如果填充,可以填充平均值,中值等等;或者將其看成測試集利用模型進行填充。

異常值:首先對數(shù)據(jù)的分布有大致的了解,認為的異常值不一定是異常值,明確對異常值的劃分。對于確認的異常值,可以按照缺失值對待處理,也需要分析異常值,或者極端值出現(xiàn)是否有規(guī)律;

邏輯值:篩選更改邏輯上有錯誤的值。

連續(xù)特征離散化:根據(jù)建立的模型分情況處理。

規(guī)范化:將數(shù)據(jù)映射到0-1之間;-1到1之間;均值為0,標(biāo)準(zhǔn)差為1;

了解背景數(shù)據(jù)處理

降維:pca,lda,lle等

采樣:分層采樣,過采樣,欠采樣

特征合并:異名同義,異名同類聚合

篩選特征:利用rf,人工等選擇重要特征

特征轉(zhuǎn)換:將某特征屬性轉(zhuǎn)為各特征。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容