檢測(cè)異常值一定程度上也可以叫做離群點(diǎn)識(shí)別,常規(guī)有以下幾種識(shí)別方法:
1.統(tǒng)計(jì)檢驗(yàn)(假設(shè)檢驗(yàn))
舉個(gè)例子:以下一組用戶(hù)用車(chē)月花費(fèi):100,110,90,80,200,120,115,月花費(fèi)的均值在116左右,標(biāo)準(zhǔn)差在39左右,理論上用戶(hù)的分布應(yīng)該在116±2x39,所以200是離群點(diǎn)
當(dāng)數(shù)據(jù)和檢驗(yàn)類(lèi)型(t、卡方等)已知的情況下,通過(guò)統(tǒng)計(jì)方法得出的結(jié)果非??煽?,但通常都是單個(gè)變量檢驗(yàn),工程實(shí)踐中重復(fù)次數(shù)較多
2.距離檢驗(yàn)(基于不同業(yè)務(wù)下,選擇不同距離定義)
常規(guī)步驟:
1.kmeans尋找k個(gè)中心點(diǎn)
2.計(jì)算每個(gè)點(diǎn)到k個(gè)中心點(diǎn)的距離
3.取k個(gè)點(diǎn)中min值,不妨記為km
4.倒序排列剔除前N個(gè),即為所求
當(dāng)數(shù)據(jù)是連續(xù)型變量時(shí)計(jì)算快速,效果優(yōu)秀,但是當(dāng)數(shù)據(jù)分布為凹分布時(shí)或者存在分類(lèi)或者名義變量時(shí)需要預(yù)處理,比較麻煩
3.密度檢驗(yàn)
常規(guī)步驟:
1.判斷每個(gè)點(diǎn)是不是核心點(diǎn)(滿(mǎn)足最少密度點(diǎn))
2.核心點(diǎn)之間是否密度可達(dá)(算是所有相互包含的密度點(diǎn))
3.合并密度點(diǎn)
4.repeat
5.尋找剩余點(diǎn)即為所求
換句話(huà)說(shuō),思路就是定一個(gè)距離半徑,定最少有多少個(gè)點(diǎn),然后把可以到達(dá)的點(diǎn)都連起來(lái),判定為同類(lèi)。但是高維度表現(xiàn)差,密度分布不均表現(xiàn)差
4.特征檢驗(yàn)
這個(gè)只是在書(shū)上讀過(guò),只能講一個(gè)大概,如果有人很熟悉歡迎指教。
舉個(gè)例子,每個(gè)人出行數(shù)據(jù)之間是有相關(guān)性的,比如你的出行距離越長(zhǎng),理論上你的支出也應(yīng)該更高。存在用戶(hù)出行公里數(shù)及價(jià)格如下,A(100,350),B(150,470),C(200,605),D(80,400),在其他條件一致的情況下,D用戶(hù)的出行數(shù)據(jù)是極其不符合用戶(hù)的特征屬性的,所以可以看作離群點(diǎn),其實(shí)這種方法也可以看作是模型檢驗(yàn)吧(做一個(gè)能夠擬合大部分?jǐn)?shù)據(jù)的模型,然后提出殘差過(guò)高的點(diǎn))。