p247 - p266
哈哈哈感覺今天看書的狀態(tài)不錯
看來有希望把欠的兩天都補上呀
不多說了進入第11章
第11章 特征選擇與稀疏學(xué)習(xí)
11.1 子集搜索與評價
從給定的特征集合中選擇相關(guān)特征子集的過程,稱為“特征選擇”。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。
能降低“維數(shù)災(zāi)難”風(fēng)險,并有降維的效果。
處理高維數(shù)據(jù)的兩大主流技術(shù):“降維”、“特征選擇”。
“無關(guān)特征”,“冗余特征”?
如果“冗余特征”對應(yīng)了一個中間過程,那么這個“冗余過程”是有益的。
怎么選特征?
產(chǎn)生一個“候選子集”,評價出好壞,基于評價產(chǎn)生下一個候選子集,再評價,直到收斂。
兩個問題:
1)如何獲取候選子集?
“子集搜索問題”。前向(非常像決策樹)、后向、雙向。
貪心策略,并不能全局最優(yōu)。
2)如何評價好壞?
使用信息增益。
實際上,特征子集對應(yīng)了一個對數(shù)據(jù)集D的劃分,真實label對應(yīng)了一個劃分。想辦法比較這兩個劃分的差異就能評價好壞。
特征搜索+子集評價:特征選擇。
常見分為三類:過濾式、包裹式、嵌入式。
11.2 過濾式選擇
過濾式方法先對數(shù)據(jù)集進行特征選擇,再訓(xùn)練學(xué)習(xí)器。特征選擇和學(xué)習(xí)器無關(guān)。
Relief:著名的特征選擇方法。
設(shè)計了一個“相關(guān)統(tǒng)計量”來度量特征的重要性。
對每個樣本先選擇最近的同類樣本,在選擇最近的不同類樣本。
相關(guān)統(tǒng)計量對于每個屬性j的計算方法:p250 式11.3
FRelief:對多分類的擴展。
11.3 包裹式選擇
包裹式選擇考慮學(xué)習(xí)器,把學(xué)習(xí)器的性能作為評價指標。
也就是要給學(xué)習(xí)器選擇最有利于其性能,量身定做的特征子集。
開銷自然會比過濾式大。
LVW:典型的包裹式選擇方法。(拉斯維加斯框架下)
偽碼見p251
LVW中特征子集搜索采用了隨機策略,每次評價都得重新訓(xùn)練學(xué)習(xí)器,故計算開銷是很大的。
同時,由于是拉斯維加斯框架,故可能給不出解。
11.4 嵌入式選擇和L1正則化
嵌入式:學(xué)習(xí)器訓(xùn)練過程中自動進行了特征選擇。
當(dāng)維數(shù)較大樣本較少,容易陷入過擬合。
故加入正則項。
而L1范數(shù)是比L2更容易得到更稀疏的解的,也就是說w中0更多。也就是選擇了特征。
p252 式11.7稱為LASSO
從而基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法
L1正則化問題的求解可使用近端梯度下降方法(PGD)。詳細原理見p253-254。
PGD可以使LASSO和其他基于L1范數(shù)最小化的方法得以快速求解。