應(yīng)用:數(shù)據(jù)預(yù)處理-異常值處理

檢測(cè)異常值一定程度上也可以叫做離群點(diǎn)識(shí)別,常規(guī)有以下幾種識(shí)別方法:

1.統(tǒng)計(jì)檢驗(yàn)(假設(shè)檢驗(yàn))

舉個(gè)例子:以下一組用戶(hù)用車(chē)月花費(fèi):100,110,90,80,200,120,115,月花費(fèi)的均值在116左右,標(biāo)準(zhǔn)差在39左右,理論上用戶(hù)的分布應(yīng)該在116±2x39,所以200是離群點(diǎn)

當(dāng)數(shù)據(jù)和檢驗(yàn)類(lèi)型(t、卡方等)已知的情況下,通過(guò)統(tǒng)計(jì)方法得出的結(jié)果非??煽?,但通常都是單個(gè)變量檢驗(yàn),工程實(shí)踐中重復(fù)次數(shù)較多

2.距離檢驗(yàn)(基于不同業(yè)務(wù)下,選擇不同距離定義)

常規(guī)步驟:

1.kmeans尋找k個(gè)中心點(diǎn)

2.計(jì)算每個(gè)點(diǎn)到k個(gè)中心點(diǎn)的距離

3.取k個(gè)點(diǎn)中min值,不妨記為km

4.倒序排列剔除前N個(gè),即為所求

當(dāng)數(shù)據(jù)是連續(xù)型變量時(shí)計(jì)算快速,效果優(yōu)秀,但是當(dāng)數(shù)據(jù)分布為凹分布時(shí)或者存在分類(lèi)或者名義變量時(shí)需要預(yù)處理,比較麻煩

3.密度檢驗(yàn)

常規(guī)步驟:

1.判斷每個(gè)點(diǎn)是不是核心點(diǎn)(滿(mǎn)足最少密度點(diǎn))

2.核心點(diǎn)之間是否密度可達(dá)(算是所有相互包含的密度點(diǎn))

3.合并密度點(diǎn)

4.repeat

5.尋找剩余點(diǎn)即為所求

換句話(huà)說(shuō),思路就是定一個(gè)距離半徑,定最少有多少個(gè)點(diǎn),然后把可以到達(dá)的點(diǎn)都連起來(lái),判定為同類(lèi)。但是高維度表現(xiàn)差,密度分布不均表現(xiàn)差

4.特征檢驗(yàn)

這個(gè)只是在書(shū)上讀過(guò),只能講一個(gè)大概,如果有人很熟悉歡迎指教。

舉個(gè)例子,每個(gè)人出行數(shù)據(jù)之間是有相關(guān)性的,比如你的出行距離越長(zhǎng),理論上你的支出也應(yīng)該更高。存在用戶(hù)出行公里數(shù)及價(jià)格如下,A(100,350),B(150,470),C(200,605),D(80,400),在其他條件一致的情況下,D用戶(hù)的出行數(shù)據(jù)是極其不符合用戶(hù)的特征屬性的,所以可以看作離群點(diǎn),其實(shí)這種方法也可以看作是模型檢驗(yàn)吧(做一個(gè)能夠擬合大部分?jǐn)?shù)據(jù)的模型,然后提出殘差過(guò)高的點(diǎn))。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容