數據分析第三步:數據預處理

數據預處理的目的是為了保證數據的質量,以便能夠更好的為后續(xù)的分析、建模工作服務。在拿到數據以后,我們首先要判斷此數據是否可為我們所用,也就是我們根據需求目標所拿到的數據的質量是否過關。

一般情況下,數據預處理主要有數據清洗(如對異常值、缺失值、數據格式的處理)、構造新變量(均值、因子分子中的因子)、數據標準化、數據類型的變換等。

對于異常值、缺失值要給出其產生的原因,對于構造新變量、數據標準化、數據類型變換同樣也要給出采用此種方法的原因。

比如,有時候我們根據需求目標所拿到的數據會缺少某些字段,此時的數據質量不咋地、不足以支撐我們在后續(xù)開展分析/建模的工作。這種情況可能是由于對業(yè)務的理解、對庫里的數據結構掌握欠缺所導致的(有時從需求目標到拿到合適的數據需多次取數);也有可能是由于對數據理解的偏差(如對變量及變量特征的掌握不夠)。對業(yè)務的深度理解和對數據的深度理解能夠更好的保證數據預處理的順利進行。

2018年1月18日下午

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容