日韩欧美久久香,www.你懂的

Filter

Filter這類方法是選定一個(gè)指標(biāo)來評估特征，根據(jù)指標(biāo)值來對特征排序，去掉達(dá)不到足夠分?jǐn)?shù)的特征。這類方法只考慮特征和目標(biāo)之間的關(guān)聯(lián)，相對另兩類特征選擇方法Wrapper和Embedded計(jì)算開銷最少。指標(biāo)的選擇對Filter方法至關(guān)重要，下面我們就看幾種被大家通常使用的指標(biāo)。

統(tǒng)計(jì)的視角：

相關(guān)系數(shù)(Correlation)。統(tǒng)計(jì)課本里都講過的皮爾森相關(guān)系數(shù)是最常用的方法。需要注意的是當(dāng)樣本數(shù)很少或者特征的取值范圍更廣時(shí)，更容易得出絕對值更大的皮爾森系數(shù)，所以樣本量不同或者取值范圍不同的特征的之間相關(guān)系數(shù)不一定可以做比較。另外皮爾森相關(guān)系數(shù)只能衡量線性相關(guān)性，隨機(jī)變量和不相關(guān)并不意味二者獨(dú)立。當(dāng)相關(guān)系數(shù)為0時(shí)我們知道的是線性分類器不能單利用這個(gè)特征的目前的形態(tài)做到將不同的類分開，但通過特征本身的變換、和其它特征組合使用或者與其它特征結(jié)合出新的特征卻可能讓它煥發(fā)出生機(jī)發(fā)揮出價(jià)值。

假設(shè)檢驗(yàn)(Hypothesis Testing)。將特征和目標(biāo)之間獨(dú)立作為H0假設(shè)，選擇檢驗(yàn)方法計(jì)算統(tǒng)計(jì)量，然后根據(jù)統(tǒng)計(jì)量確定值做出統(tǒng)計(jì)推斷。

信息論的視角：

互信息(Mutual Information)：，函數(shù)表示信息（負(fù)熵），函數(shù) 表示概率。

信息增益(Information Gain)：。

最小描述長度(Minimum Description Length)。

Wrapper

Wrapper方法和Filter不同，它不單看特征和目標(biāo)直接的關(guān)聯(lián)性，而是從添加這個(gè)特征后模型最終的表現(xiàn)來評估特征的好壞。Wrapper方法需要選定一種評估模型效果的指標(biāo)，如Area Under the Curve (AUC)、Mean Absolute Error (MAE)、Mean Squared Error(MSE)。假設(shè)我們有個(gè)特征，除去空集外這個(gè)特征可以組成個(gè)集合，最暴力的方法是分別用個(gè)特征集合訓(xùn)練得到模型做評估，最后選擇模型效果最好的集合。顯而易見當(dāng)很大時(shí)窮舉法計(jì)算開銷驚人。所以前向特征選擇(Forward Feature Selection)和后向特征選擇(Backward Feature Selection)這樣的貪心策略更為大家平常所用。前向特征選擇從空集開始，每次在現(xiàn)有特征集合的基礎(chǔ)上添加一個(gè)讓模型效果最好的特征。相反，后向特征選擇一開始包括所有的候選特征，每次去掉一個(gè)讓模型指標(biāo)提升最多的特征。

離線評估結(jié)果是重要的參考指標(biāo)，但在實(shí)際應(yīng)用中，往往最終還是通過線上A/B Test實(shí)驗(yàn)來判斷一個(gè)特征的效果。在實(shí)際應(yīng)用中離線評估不錯(cuò)的特征在線上表現(xiàn)不一定就好，線上線下評估的一致性和影響因素是另一個(gè)可以值得研究的問題。

Embedded

Filter方法和Wrapper方法都是和分類算法本身的實(shí)現(xiàn)無關(guān)，可以與各種算法結(jié)合使用。而Embedded特征選擇方法與算法本身緊密結(jié)合，在模型訓(xùn)練過程中完成特征的選擇。例如：決策樹算法每次都優(yōu)先選擇分類能力最強(qiáng)的特征；邏輯回歸算法的優(yōu)化目標(biāo)函數(shù)在log likelihood的基礎(chǔ)上加上對權(quán)重的L1或者L2等罰項(xiàng)后也會(huì)讓信號弱的特征權(quán)重很小甚至為0。

一些優(yōu)化算法天然就適合在每步判斷一個(gè)維度特征的好壞，所以可以在學(xué)習(xí)器在設(shè)計(jì)時(shí)就同時(shí)融合了特征選擇功能，在訓(xùn)練過程中自動(dòng)嘗試構(gòu)造特征和選擇特征。

小結(jié)

Filter、Wrapper、Embedded三種方法各有不同，但沒有孰好孰壞之分，在我們的實(shí)際工作中會(huì)結(jié)合使用。Filter作為簡單快速的特征檢驗(yàn)方法，可以指導(dǎo)特征的預(yù)處理和特征的初選。Embedded特征選擇是我們學(xué)習(xí)器本身所具備的能力。通過Wrapper來離線和在線評估是否增加一個(gè)特征。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)挖掘比賽技巧

數(shù)據(jù)挖掘比賽技巧

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)挖掘比賽技巧

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av