表觀處理
去重:將重復(fù)的數(shù)據(jù)去除掉
合并:將不同的數(shù)據(jù)表合并在一起,組成‘大’維度表
深入處理
缺失值:該部分處理是整個數(shù)據(jù)挖掘過程都需要反復(fù)考慮的事;根據(jù)特征缺失值占比多少,決定是填充還是直接刪了;如果填充,可以填充平均值,中值等等;或者將其看成測試集利用模型進行填充。
異常值:首先對數(shù)據(jù)的分布有大致的了解,認為的異常值不一定是異常值,明確對異常值的劃分。對于確認的異常值,可以按照缺失值對待處理,也需要分析異常值,或者極端值出現(xiàn)是否有規(guī)律;
邏輯值:篩選更改邏輯上有錯誤的值。
連續(xù)特征離散化:根據(jù)建立的模型分情況處理。
規(guī)范化:將數(shù)據(jù)映射到0-1之間;-1到1之間;均值為0,標(biāo)準(zhǔn)差為1;
了解背景數(shù)據(jù)處理
降維:pca,lda,lle等
采樣:分層采樣,過采樣,欠采樣
特征合并:異名同義,異名同類聚合
篩選特征:利用rf,人工等選擇重要特征
特征轉(zhuǎn)換:將某特征屬性轉(zhuǎn)為各特征。