數據預處理的目的是為了保證數據的質量,以便能夠更好的為后續(xù)的分析、建模工作服務。在拿到數據以后,我們首先要判斷此數據是否可為我們所用,也就是我們根據需求目標所拿到的數據的質量是否過關。
一般情況下,數據預處理主要有數據清洗(如對異常值、缺失值、數據格式的處理)、構造新變量(均值、因子分子中的因子)、數據標準化、數據類型的變換等。
對于異常值、缺失值要給出其產生的原因,對于構造新變量、數據標準化、數據類型變換同樣也要給出采用此種方法的原因。
比如,有時候我們根據需求目標所拿到的數據會缺少某些字段,此時的數據質量不咋地、不足以支撐我們在后續(xù)開展分析/建模的工作。這種情況可能是由于對業(yè)務的理解、對庫里的數據結構掌握欠缺所導致的(有時從需求目標到拿到合適的數據需多次取數);也有可能是由于對數據理解的偏差(如對變量及變量特征的掌握不夠)。對業(yè)務的深度理解和對數據的深度理解能夠更好的保證數據預處理的順利進行。
2018年1月18日下午