特征工程

問題


特征歸一化

  • 為什么要進行特征歸一化?
  • 方法?
  • 使用場景?

離散型特征處理

  • 為什么要處理?
  • 方法?

特征組合

  • 什么是?
  • 方法?
  • 存在的問題?
  • 如何有效的進行?

文本表示

  • 方法?
  • Word2Vec的原理?
  • Word2Vec和LDA的區(qū)別?

數(shù)據(jù)不足

  • 問題?
  • 處理方法?

解答


特征歸一化

  • 為什么要進行特征歸一化?
    由于特征之間的量綱不同,不同特征的大小將會對結(jié)果產(chǎn)生影響,通過歸一化可以將特征統(tǒng)一到一個大致相同的數(shù)值范圍,便于分析,得到更加準(zhǔn)確的結(jié)果。

  • 方法?
    線性函數(shù)歸一化
    等比縮放到0-1之間。
    零均值歸一化
    映射到均值為0,標(biāo)準(zhǔn)差為1的分布上。

  • 使用場景?
    梯度下降,線性回歸,邏輯回歸,支持向量機,神經(jīng)網(wǎng)絡(luò)。
    決策樹不適合,如C4.5以信息增益比分裂節(jié)點,歸一化并不會對信息增益比產(chǎn)生影響。


離散型特征處理

  • 為什么要處理?
    離散型特征一般來說都是一些非數(shù)值型特征,大多數(shù)模型是無法直接使用的,所以需要對其進行處理,將其轉(zhuǎn)化為數(shù)值型特征。

  • 方法?
    序號編碼
    對于原始數(shù)據(jù)具有大小關(guān)系的特征,對其進行序號編碼,轉(zhuǎn)換之后的特征保留了其大小關(guān)系。
    獨熱編碼
    對于不具備大小關(guān)系的離散型特征,通過獨熱編碼對其進行轉(zhuǎn)換。
    但是通常其編碼的維度較高,可能導(dǎo)致模型的參數(shù)過多,產(chǎn)生過擬合問題。通過可能只有部分維度對結(jié)果有幫助。
    二進制編碼
    維度少于獨熱編碼,節(jié)省空間。


特征組合

  • 什么是?
    將一階的離散特征兩兩組合構(gòu)成高階的組合特征,可以提高對復(fù)雜關(guān)系的擬合能力。

  • 方法?
    兩兩組合在一起。

  • 存在的問題?
    當(dāng)離散特征的取值非常多的時候,或者離散特征非常多的時候,簡單的兩兩特征組合將會使得模型的參數(shù)過多,容易出現(xiàn)過擬合問題。同時,并不是所有的特征組合都是有用的。

  • 如何有效的進行?
    可以通過梯度提升決策樹,構(gòu)造之后的決策樹就是一種特征組合方法。


文本表示

  • 方法?
    由于詞的不同詞性可能表達(dá)的含義相同,所以首先進行詞干轉(zhuǎn)化。
    詞袋模型
    使用一個長向量表示文章,每一維表示一個單詞。權(quán)重使用TF-IDF。
    這是對文章進行詞級別的劃分,但是詞和詞組的意義差別較大,可能無法正確表達(dá)含義。
    N-gram模型
    通過n個詞組成詞組,建立詞袋模型。
    主題模型
    詞具有主題分析,通過詞的主題分布表示文章的主題分布。
    詞嵌入模型
    將詞轉(zhuǎn)化成向量,通常使用深度學(xué)習(xí)實現(xiàn)。這是因為可以自動進行特征工程,每一個隱層可以對應(yīng)不同層的抽象處理??梢愿脤ξ谋窘?,抽取高層的語義特征。
    同時,CNN和RNN效果更好的原因:一方面可以更好地抓住文本特征,另一方面可以減少學(xué)習(xí)的參數(shù),提高訓(xùn)練速度,降低過擬合的風(fēng)險。

  • Word2Vec的原理?
    Word2Vec有兩種結(jié)構(gòu):CBOWSkip-gram。
    在結(jié)構(gòu)上,前者是通過上下文得到當(dāng)前詞,后者是通過當(dāng)前詞得到上下文。但是最終的結(jié)果都將導(dǎo)致相鄰的詞之前的距離較小。訓(xùn)練之后的權(quán)重矩陣就是所有詞的向量表示。

  • Word2Vec和LDA的區(qū)別?
    Word2Vec屬于詞嵌入模型,學(xué)習(xí)“上下文-單詞”矩陣。
    LDA是主題模型,將“文檔-單詞”矩陣轉(zhuǎn)化為“文檔-主題”和“主題-單詞”矩陣。
    兩者最大的區(qū)別在于模型本身:
    主題模型:基于概率圖模型的生成式模型,似然函數(shù)是若干條件概率連乘得到的。
    詞嵌入模型:神經(jīng)網(wǎng)絡(luò),似然函數(shù)是定義在網(wǎng)絡(luò)上的,通過網(wǎng)絡(luò)權(quán)重得到的稠密向量。


數(shù)據(jù)不足

  • 問題?
    當(dāng)訓(xùn)練數(shù)據(jù)不足時,將會導(dǎo)致過擬合現(xiàn)象的發(fā)生,使得模型的泛化效果不佳。

  • 處理方法?
    由于一個模型包含了兩方面的信息:訓(xùn)練數(shù)據(jù)蘊含信息先驗信息。
    當(dāng)前者不足時可以通過提升后者來提高模型的效果。具體有兩種方法。
    將先驗信息作用到模型上
    可以設(shè)計特點結(jié)構(gòu)的模型;增加約束項,縮小搜索空間;集成學(xué)習(xí)。
    將先驗信息作用到數(shù)據(jù)集中
    在一定的程度上調(diào)整、變換訓(xùn)練數(shù)據(jù),擴大訓(xùn)練數(shù)據(jù)集。
    比如在圖像分類問題中,可以改變圖像的亮度、對比度、清晰度、銳度等,可以對圖像進行平移、旋轉(zhuǎn)、裁剪、填充、反轉(zhuǎn)等操作,可以對像素增加擾動,對圖像進行顏色變換等處理。
    還可以先提取特征,在特征空間上進行變換。
    通過生成模型生成數(shù)據(jù),比如GAN。
    還可以將大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型遷移到小數(shù)據(jù)集上,通過微調(diào)提高模型表現(xiàn)。(遷移學(xué)習(xí))


作者原創(chuàng),如需轉(zhuǎn)載及其他問題請郵箱聯(lián)系:lwqiang_chn@163.com。
個人網(wǎng)站:https://www.myqiang.top。
GitHub:https://github.com/liuwenqiang1202。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容