數(shù)據(jù)挖掘中的預(yù)處理

【數(shù)據(jù)清洗】
Part 1:缺失值處理

  1. 忽略元組
  2. 人工填寫缺失值
  3. 使用一個全局常量填充缺失值:例如將缺失值用“Unknown”表示
  4. 使用屬性的中心度量(mean or median):對于對稱數(shù)據(jù)分布使用mean,秦些數(shù)據(jù)分布使用median。
  5. 使用與給定元組屬同一類的所有樣本mean或median:例如將顧客按credit_risk分類,則用具有相同信用風(fēng)險的顧客平均收入替換income中的缺失值。若給定數(shù)據(jù)分布是傾斜的,則median是更好的選擇。
  6. 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分類。

Part 2:噪聲數(shù)據(jù)的處理
<definition>噪聲(noise):是被測量的變量隨機誤差或方差。
數(shù)據(jù)光滑技術(shù):

  1. 分箱(binning):通過考查數(shù)據(jù)的近鄰來光滑有序數(shù)據(jù)集。常見的:用箱均值光滑;用箱中位數(shù)光滑;用箱邊界光滑。
  2. 回歸(regression):用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。
  3. 離群點分析(outlier analysis):通過如聚類來檢測離群點。

【數(shù)據(jù)集成】
Part 1:冗余和相關(guān)分析:
對于標(biāo)稱數(shù)據(jù),我們使用卡方檢驗發(fā)現(xiàn)。對于數(shù)值屬性,我們使用相關(guān)系數(shù)、協(xié)方差發(fā)現(xiàn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 想寫這個系列很久了,最近剛好項目結(jié)束了閑下來有點時間,于是決定把之前學(xué)過的東西做個總結(jié)。之前看過一些機器學(xué)習(xí)方面的...
    huihui7987閱讀 1,309評論 0 0
  • (轉(zhuǎn)自http://www.douban.com/group/topic/14820131/,轉(zhuǎn)自人大論壇) 調(diào)整...
    f382b3d9bdb3閱讀 10,986評論 0 8
  • 昨天晚上,確切的說應(yīng)該是今天凌晨接近一點的時候,宿舍突然響起一陣敲門聲。我從夢中驚醒,迷迷糊糊問是誰。大部分舍友都...
    南方笑佳人閱讀 362評論 0 0
  • 昨天接到媽媽電話,說是妹妹的婆婆早上突然走了,聽到消息先是震驚,本能說了句不會吧! 腦袋很自然把時間倒序到3個月前...
    WeddingLin大小姐閱讀 243評論 0 0
  • 那時,那年,那歲月。 唯有不知,那時的花是否開放。 你心中的那朵花, 開了嗎? 它,是灰,紅,青,綠,還是 白呢?...
    夢歸宿溪閱讀 387評論 2 7

友情鏈接更多精彩內(nèi)容