機(jī)器學(xué)習(xí)11章筆記

第十一章 特征選擇和稀疏學(xué)習(xí)

11.1子集搜索與評(píng)價(jià)

1.為什么要進(jìn)行特征選擇?
有兩個(gè)原因。a.在現(xiàn)實(shí)任務(wù)中經(jīng)常會(huì)遇到 維數(shù)災(zāi)難問題,這是由于屬性過多造成的,特征選擇可以大大減輕這個(gè)問題;b.去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度。
需要注意的是,特征選擇過程必須確保不丟失重要特征,否則后續(xù)學(xué)習(xí)過程會(huì)因?yàn)橹匾畔⒌拇_實(shí)而無(wú)法獲得好的性能。給定數(shù)據(jù)集,若學(xué)習(xí)任務(wù)不同,則相關(guān)特征的選擇也不同,因此,特征選擇中的“無(wú)關(guān)特征”只是指該特征與當(dāng)前任務(wù)無(wú)關(guān)。(無(wú)關(guān)特征與冗余特征)

2.如何評(píng)價(jià)候選特征子集的好壞?
第一個(gè)環(huán)節(jié)是“子集搜索”的問題。前向搜索:給定特定的特征集合,將每一個(gè)特征看作一個(gè)特征子集,依次選入最優(yōu)特征,直至后面加入的特征子集都不能使得找到的特征子集更加優(yōu)秀,停止算法。后向搜索:一個(gè)一個(gè)剔除無(wú)關(guān)屬性,逐漸減少特征。將前向和后向搜索結(jié)合起來,每一輪逐漸增加選定相關(guān)特征(這些特征在后續(xù)論中將確定不會(huì)被剔除)、同時(shí)剔除無(wú)關(guān)特征,這種策略叫做“雙向搜索”。注意:這樣的策略都是貪心的,因?yàn)閮H僅考慮了使得本輪選定集合最優(yōu),例如在某一輪選的1,2,5的特征,但是第四輪可能是1,2,4,6比所有的1,2,5,*都優(yōu)秀,可是遺憾的是,若不進(jìn)行瓊劇搜索,則這樣的問題無(wú)法避免。
第二個(gè)環(huán)節(jié)是”子集評(píng)價(jià)“的問題。如果是離散屬性,可以考慮屬性子集的信息增益,信息增益越大,意味著特征在積極A包含的有助于分類的信息越多,因此對(duì)于每個(gè)候選特征子集,我們可以基于訓(xùn)練數(shù)據(jù)集D來計(jì)算其信息增益,以此作為評(píng)價(jià)準(zhǔn)測(cè)。更一般的是,特征子集A實(shí)際上確定了對(duì)數(shù)據(jù)集D的一個(gè)劃分,每個(gè)劃分區(qū)域?qū)?yīng)著A上的一個(gè)取值,而樣本標(biāo)記信息Y則對(duì)應(yīng)著D的真實(shí)劃分,通過估算這兩個(gè)劃分的差異,就可以對(duì)A進(jìn)行評(píng)價(jià)。與Y對(duì)應(yīng)的劃分的差異越小,則說明A越好。信息上僅僅是判斷這個(gè)差異的一種途徑,其他能判斷兩個(gè)劃分差異的機(jī)制都能用于特征子集評(píng)價(jià)。常見的特征選擇方法大致可以分為三類:過濾式、包裹式和嵌入式。

11.2 過濾式選擇
過濾式方法先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)期無(wú)關(guān)。這相當(dāng)于先把特征選擇過程對(duì)初始特征進(jìn)行”過濾“,再用過濾后的特征來訓(xùn)練模型。
Relief式一種著名的過濾式特征選擇方法,該方法設(shè)計(jì)了一個(gè)”相關(guān)統(tǒng)計(jì)量“來度量特征的重要性。該統(tǒng)計(jì)量是一個(gè)向量,其每個(gè)分量分別對(duì)應(yīng)于一個(gè)初始特征,而特征子集的重要性則是由子集中每個(gè)特征所對(duì)應(yīng)的相關(guān)統(tǒng)計(jì)量分類之和來決定。于是,最終只需要指定一個(gè)閾值,然后選擇比該閾值大的相關(guān)統(tǒng)計(jì)量分量所對(duì)應(yīng)的特征即可;也可以指定個(gè)預(yù)選取的特征的個(gè)數(shù)為K,然后選擇統(tǒng)計(jì)量分量最大的K個(gè)特征。

11.3包裹式選擇
包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)標(biāo)準(zhǔn)。換而言之,包裹式特征子集選擇的目的是為了給學(xué)習(xí)器選擇最有利于其性能、”量身定做”的特征子集。
從最終機(jī)器學(xué)習(xí)器性能來看,包裹式特征選擇比過濾式特征選擇更好,但是另一方面,由于特征選擇過程中需要多次訓(xùn)練學(xué)習(xí)器,因此包裹式特征選擇的計(jì)算開銷通常比過濾式特征選擇大得多

11.4嵌入式選擇和L1正則化
再過濾式選擇和包裹式特征選擇方法中,特征選擇過程與學(xué)習(xí)器與學(xué)習(xí)器訓(xùn)練過程有明顯的不同;與此不同嵌入式特征選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個(gè)優(yōu)化過程中完成,即在學(xué)習(xí)器訓(xùn)練過程特征選擇中自動(dòng)地進(jìn)行特征選擇。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容