p247 - p266
哈哈哈感覺今天看書的狀態(tài)不錯
看來有希望把欠的兩天都補上呀
不多說了進入第11章

第11章特征選擇與稀疏學(xué)習(xí)

11.1 子集搜索與評價

從給定的特征集合中選擇相關(guān)特征子集的過程，稱為“特征選擇”。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。
能降低“維數(shù)災(zāi)難”風(fēng)險，并有降維的效果。

處理高維數(shù)據(jù)的兩大主流技術(shù)：“降維”、“特征選擇”。

“無關(guān)特征”，“冗余特征”？
如果“冗余特征”對應(yīng)了一個中間過程，那么這個“冗余過程”是有益的。

怎么選特征？
產(chǎn)生一個“候選子集”，評價出好壞，基于評價產(chǎn)生下一個候選子集，再評價，直到收斂。
兩個問題：
1）如何獲取候選子集？
“子集搜索問題”。前向（非常像決策樹）、后向、雙向。
貪心策略，并不能全局最優(yōu)。

2）如何評價好壞？
使用信息增益。
實際上，特征子集對應(yīng)了一個對數(shù)據(jù)集D的劃分，真實label對應(yīng)了一個劃分。想辦法比較這兩個劃分的差異就能評價好壞。

特征搜索+子集評價：特征選擇。
常見分為三類：過濾式、包裹式、嵌入式。

過濾式方法先對數(shù)據(jù)集進行特征選擇，再訓(xùn)練學(xué)習(xí)器。特征選擇和學(xué)習(xí)器無關(guān)。

Relief：著名的特征選擇方法。
設(shè)計了一個“相關(guān)統(tǒng)計量”來度量特征的重要性。

對每個樣本先選擇最近的同類樣本，在選擇最近的不同類樣本。
相關(guān)統(tǒng)計量對于每個屬性j的計算方法：p250 式11.3

FRelief：對多分類的擴展。

包裹式選擇考慮學(xué)習(xí)器，把學(xué)習(xí)器的性能作為評價指標。
也就是要給學(xué)習(xí)器選擇最有利于其性能，量身定做的特征子集。

開銷自然會比過濾式大。

LVW：典型的包裹式選擇方法。（拉斯維加斯框架下）
偽碼見p251

LVW中特征子集搜索采用了隨機策略，每次評價都得重新訓(xùn)練學(xué)習(xí)器，故計算開銷是很大的。
同時，由于是拉斯維加斯框架，故可能給不出解。

嵌入式：學(xué)習(xí)器訓(xùn)練過程中自動進行了特征選擇。

當(dāng)維數(shù)較大樣本較少，容易陷入過擬合。
故加入正則項。

而L1范數(shù)是比L2更容易得到更稀疏的解的，也就是說w中0更多。也就是選擇了特征。
p252 式11.7稱為LASSO

從而基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法

L1正則化問題的求解可使用近端梯度下降方法（PGD）。詳細原理見p253-254。
PGD可以使LASSO和其他基于L1范數(shù)最小化的方法得以快速求解。