PU learning (positive unlabeled learning),稱為正樣本無標簽學習。樣本集中包含正例樣本集P和無標簽樣本集Q
應用場景:惡意url檢測,致病基因檢測等。
1.限制最優(yōu)化問題
限制最優(yōu)化問題(Constrained Optimization Problem)也稱約束優(yōu)化問題。本算法的目的:當正例數(shù)據(jù)中的錯誤率低于1-c的情況下,最小化無標注數(shù)據(jù)中正例數(shù)據(jù)的數(shù)目。(c為常數(shù))
如何理解?
記Y=1表示樣本為正例,Y=0表示樣本為反例,
記S=1表示樣本已標記,S=0表示樣本未標記
由該場景是已知已標記的樣本肯定是正樣本得到,
我們是希望得到,即未標記樣本中為正例的概率
假設正樣本中被選取為(即被標記)正樣本的概率服從某一分布,與x的特征沒有關系,記
由概率的鏈式法則可以得到,
目標概率:
2.問題求解方法
3.案例分析
Detecting positive and negative deceptive opinions using PU-learning
---待更新