Abstract
- 特征選擇在機器學(xué)習(xí)中非常重要,尤其是在生物信息學(xué)任務(wù)中。
- 本文提出一種新的魯棒特征選擇方法,這一方法核心在于在損失函數(shù)核正則化項中聯(lián)合使用21范數(shù)。
- 基于21范數(shù)的損失函數(shù)對于數(shù)據(jù)點中的異常值具有較好的魯棒性,而基于21范數(shù)的正則化項則可以選擇所有數(shù)據(jù)點稀疏的特征。
- 本文證明了算法的收斂性。同時通過實驗結(jié)果證明了方法的性能。
Introduction
- 一般來說,特征選擇有三種模型:1.濾波方法,通過獨立的分類器進行特征選擇;2.包裝方法,將預(yù)測方法作為一個黑盒,對特征的子集進行打分;3.嵌入式方法,將特征選擇的過程直接嵌入在訓(xùn)練過程中。
- 本文采用了基于21范數(shù)的損失函數(shù)來消除異常值,因為基于2范數(shù)的損失函數(shù)對異常值敏感。
- 提出了基于21范數(shù)的正則化項,通過帶有連接稀疏性的數(shù)據(jù)點選擇特征,即每個特征對于所有的數(shù)據(jù)點要么具有較小的分?jǐn)?shù)要么具有較大的分?jǐn)?shù)。
Notations and Definitions
-
給出了21范數(shù)的定義:
- 21范數(shù)對于行來說具有旋轉(zhuǎn)不變性:
-
將21范數(shù)推廣到了rp范數(shù):
Robust Feature Selection Based on 2,1-Norms
- 以最小二乘回歸為例,目標(biāo)函數(shù)如下:
- 正則化項R(W)有以下幾種選擇:
(關(guān)于正則化可以看這個https://blog.csdn.net/zouxy09/article/details/24971995) - R3的0范數(shù)是最理想的,但是本文使用R4代替,因為一方面R4的1范數(shù)是凸的并且很容易優(yōu)化(本文貢獻)。另一方面0范數(shù)的結(jié)果與實際條件下的1范數(shù)結(jié)果相同或近似相同。
An Efficient Algorithm
Reformulation as A Constrained Problem
- 目標(biāo)函數(shù)轉(zhuǎn)化為如下形式:
- 現(xiàn)有算法通常將其重新表述為二階錐規(guī)劃(SOCP)或半定規(guī)劃(SDP)問題,進而可以通過內(nèi)點法或約束法求解。但是這些方法計算復(fù)雜。
- 也有文獻將問題重述為min-max問題,應(yīng)用近端梯度法解決。這一方法更有效但是收斂速度非常慢,而且只能解決特定問題。
- 下文將提出一個簡單而有效的方法來解決這一問題,同時可以保證收斂到全局最優(yōu)。
An Efficient Algorithm to Solve the Constrained Problem
- 算法主要基于拉格朗日方法,構(gòu)造拉格朗日函數(shù)如下:
-
進一步推導(dǎo)如下:(懶得敲公式了哈哈哈)
-
注意到D是由U得到的,因此給出了迭代求解的算法如下:
Algorithm Analysis
- 這一部分證明了算法將使目標(biāo)函數(shù)收斂到全局最優(yōu)值,證明略。
Experimental Results
- 通過實驗證明了算法的有效性,實驗及結(jié)果略。
Conclusions
- 本文提出了一種全新的高效且具有魯棒性的特征選擇方法,通過在損失函數(shù)和正則化項中使用21范數(shù)并結(jié)合優(yōu)化,取得了較好的效果,同時具有較好的魯棒性。本文還給出了一種有效的優(yōu)化求解算法,并證明了這一算法將使目標(biāo)函數(shù)收斂到全局最優(yōu)值



