淺談數(shù)據(jù)挖掘評估技術(shù)
前言:模型的性能評估是數(shù)據(jù)挖掘過程中重要的步驟,是模型能否投入到實際使用當(dāng)中的一個重要環(huán)節(jié)。
一、數(shù)據(jù)挖掘評估概述
數(shù)據(jù)挖掘過程中需要評估過程的內(nèi)容和環(huán)節(jié)示意圖

其中產(chǎn)生影響的步驟:
1數(shù)據(jù):數(shù)據(jù)應(yīng)用分層法進(jìn)行分類收集和整理,應(yīng)用概念層化方法處理數(shù)據(jù)。
2參數(shù):利用模型比較技術(shù)來選取合適的模型,并確定模型的參數(shù)。
3數(shù)據(jù)挖掘技術(shù):選擇挖掘技術(shù)的時候,要考慮數(shù)據(jù)的特性,如果數(shù)據(jù)的分布不是正態(tài)分布,最好不要使用基于統(tǒng)計的數(shù)學(xué)模型。利用模型比較技術(shù),選出離目標(biāo)最好的結(jié)果。
4模型:監(jiān)督的模型利用檢驗數(shù)據(jù)進(jìn)行評估,使用分類正確率和混淆矩陣進(jìn)行,再使用置信區(qū)間進(jìn)行可信度評估。非監(jiān)督模型利用計算每個聚類形成的簇中的實例與該簇中心的誤差平方作為簇的質(zhì)量的度量。
5檢驗集:隨機(jī)抽取數(shù)據(jù),確保數(shù)據(jù)分布。
評估工具

評估監(jiān)督學(xué)習(xí)模型

上面我們談了如何評估一個監(jiān)督的學(xué)習(xí)模型,接下來我們講述不同的監(jiān)督徐熙模型之間的比較方法:
1使用Lift比較模型
Lift度量了一個偏差樣本內(nèi)的類C的期望集中度相對于總體內(nèi)的C的集中度的百分比的變化。Lift用來評估一個有指導(dǎo)的分類或預(yù)測模型是否有效。評估不同監(jiān)督模型之間的性能優(yōu)越度。
2通過假設(shè)檢驗比較模型
通過假設(shè)檢驗來比較兩個用同樣訓(xùn)練集創(chuàng)建的有指導(dǎo)學(xué)習(xí)模型。
說完模型之間的評估技術(shù),接下來是對于屬性的評估

以上就是數(shù)據(jù)挖掘過程中涉及的內(nèi)容,應(yīng)該使用什么樣的方法來進(jìn)行評估,建立出最優(yōu)模型。