PU learning

PU learning (positive unlabeled learning),稱為正樣本無標簽學習。樣本集中包含正例樣本集P和無標簽樣本集Q
應用場景:惡意url檢測,致病基因檢測等。

1.限制最優(yōu)化問題

限制最優(yōu)化問題(Constrained Optimization Problem)也稱約束優(yōu)化問題。本算法的目的:當正例數(shù)據(jù)中的錯誤率低于1-c的情況下,最小化無標注數(shù)據(jù)中正例數(shù)據(jù)的數(shù)目。(c為常數(shù))
如何理解?
記Y=1表示樣本為正例,Y=0表示樣本為反例,
記S=1表示樣本已標記,S=0表示樣本未標記
由該場景是已知已標記的樣本肯定是正樣本得到,P(Y=1|S=1)=1,P(Y=0|S=1)=0
我們是希望得到P(Y=1|S=0),即未標記樣本中為正例的概率
假設正樣本中被選取為(即被標記)正樣本的概率服從某一分布,與x的特征沒有關系,記P(S=1|Y=1)=c
由概率的鏈式法則可以得到,
P(Y=1) \\=\frac{P(Y=1|S=1)P(S=1)}{P(S=1|Y=1)} \\=\frac{P(S=1)}{c}
目標概率:
P(Y=1|S=0) \\=\frac{P(Y=1,S=0)}{P(S=0)} \\=\frac{P(S=0|Y=1)P(Y=1)}{1-P(S=1)} \\=\frac{(1-P(S=1|Y=1))P(S=1)}{(1-P(S=1))c} \\=\frac{1-c}{c}\frac{P(S=1)}{1-P(S=1)} \\=w

2.問題求解方法

3.案例分析

Detecting positive and negative deceptive opinions using PU-learning

---待更新

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容