sklearn之OneClassSVM

1.簡(jiǎn)介:

(1)無(wú)監(jiān)督異常值檢測(cè)

(2)解決非平衡樣本分類


2.函數(shù)定義

class?sklearn.svm.OneClassSVM(kernel=’rbf’,?degree=3,?gamma=’auto’,?coef0=0.0,?tol=0.001,?nu=0.5,?shrinking=True,?cache_size=200,?verbose=False,?max_iter=-1,?random_state=None)


3.參數(shù)含義:

kernel:


4.OneClass與2分類,多分類的區(qū)別

? ? 典型的2類問題:識(shí)別郵件是否是垃圾郵件,一類“是”,另一類“不是”

? ? 典型的多類問題:人臉識(shí)別,每個(gè)人對(duì)應(yīng)的臉就是一個(gè)類,然后把待識(shí)別的臉分到對(duì)應(yīng)的類中去

? ? 而OneClassClassification,它只有一個(gè)類,屬于該類就返回結(jié)果“是”,不屬于就返回結(jié)果“不是”,乍一聽感覺與2分類沒什么區(qū)別,其實(shí)他們的思想有很大差異。在2分類問題中,訓(xùn)練集中就由兩個(gè)類的樣本組成,訓(xùn)練出的模型是一個(gè)2分類模型;而OneClassClassification中的訓(xùn)練樣本只有一類,因此訓(xùn)練出的分類器將不屬于該類的所有其他樣本判別為“不是”即可,而不是由于屬于另一類才返回的“不是”結(jié)果。

? ? 現(xiàn)實(shí)場(chǎng)景中的OneClassClassification例子:現(xiàn)在有一堆某商品的歷史銷售數(shù)據(jù),記錄著買該產(chǎn)品的用戶信息,此外還有一些沒有購(gòu)買過該產(chǎn)品的用戶信息,想通過2分類來(lái)預(yù)測(cè)他們是否會(huì)買該產(chǎn)品,也就是弄兩個(gè)類,一類是“買”,一類是“不買”。當(dāng)我們要開始訓(xùn)練2分類器的時(shí)候問題來(lái)了,一般來(lái)說(shuō)沒買的用戶數(shù)會(huì)遠(yuǎn)遠(yuǎn)大于已經(jīng)買了的用戶數(shù),當(dāng)將數(shù)量不均衡的正負(fù)樣本投入訓(xùn)練時(shí),訓(xùn)練出的分類器會(huì)有較大的bias(偏向值)。因此,這時(shí)可以使用OneCLassClassification方法來(lái)解決,即訓(xùn)練集中只有已經(jīng)買過該產(chǎn)品的用戶數(shù)據(jù),在識(shí)別一個(gè)新用戶是否會(huì)買該產(chǎn)品時(shí),識(shí)別結(jié)果就是“會(huì)”或者“不會(huì)”。


5.OneClassCLassification的具體實(shí)現(xiàn)

多類Classification方法有很多,比如SVM尋找一個(gè)最優(yōu)超平面把正負(fù)樣本分開,總之都涉及到不止一個(gè)類的樣本,相當(dāng)于告訴算法“這種東西長(zhǎng)什么樣,那種東西長(zhǎng)什么樣”。于是訓(xùn)練出一個(gè)模型能夠區(qū)分這些東西。

問題在于,OneCLassClassification只有一個(gè)類,該怎么辦?

介紹一個(gè)方法:SVDD(support vector domain description),中文翻譯為“支持向量域描述”

其基本思想是:既然只有一個(gè)class,那么我就訓(xùn)練出一個(gè)最小的超球面(超球面是指3維以上的空間中的球面,對(duì)應(yīng)的2維空間中就是曲線,3維空間中就是球面),將這堆數(shù)據(jù)全部“包起來(lái)”,識(shí)別一個(gè)新的數(shù)據(jù)點(diǎn)時(shí),如果這個(gè)數(shù)據(jù)點(diǎn)落在超球面內(nèi),就屬于這個(gè)類,否則不是。

下面是在2維空間(實(shí)際情況中,如果提取的特征多,維數(shù)就高)中的例子,

更多原理公式推導(dǎo),詳見 http://blog.sina.com.cn/s/blog_4ff49c7e0102vlbv.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容