問題

特征歸一化

為什么要進行特征歸一化？
方法？
使用場景？

離散型特征處理

為什么要處理？
方法？

特征組合

什么是？
方法？
存在的問題？
如何有效的進行？

文本表示

方法？
Word2Vec的原理？
Word2Vec和LDA的區(qū)別？

數(shù)據(jù)不足

問題？
處理方法？

解答

特征歸一化

為什么要進行特征歸一化？
由于特征之間的量綱不同，不同特征的大小將會對結(jié)果產(chǎn)生影響，通過歸一化可以將特征統(tǒng)一到一個大致相同的數(shù)值范圍，便于分析，得到更加準(zhǔn)確的結(jié)果。
方法？
線性函數(shù)歸一化
等比縮放到0-1之間。
零均值歸一化
映射到均值為0，標(biāo)準(zhǔn)差為1的分布上。
使用場景？
梯度下降，線性回歸，邏輯回歸，支持向量機，神經(jīng)網(wǎng)絡(luò)。
決策樹不適合，如C4.5以信息增益比分裂節(jié)點，歸一化并不會對信息增益比產(chǎn)生影響。

離散型特征處理

為什么要處理？
離散型特征一般來說都是一些非數(shù)值型特征，大多數(shù)模型是無法直接使用的，所以需要對其進行處理，將其轉(zhuǎn)化為數(shù)值型特征。
方法？
序號編碼
對于原始數(shù)據(jù)具有大小關(guān)系的特征，對其進行序號編碼，轉(zhuǎn)換之后的特征保留了其大小關(guān)系。
獨熱編碼
對于不具備大小關(guān)系的離散型特征，通過獨熱編碼對其進行轉(zhuǎn)換。
但是通常其編碼的維度較高，可能導(dǎo)致模型的參數(shù)過多，產(chǎn)生過擬合問題。通過可能只有部分維度對結(jié)果有幫助。
二進制編碼
維度少于獨熱編碼，節(jié)省空間。

特征組合

什么是？
將一階的離散特征兩兩組合構(gòu)成高階的組合特征，可以提高對復(fù)雜關(guān)系的擬合能力。
方法？
兩兩組合在一起。
存在的問題？
當(dāng)離散特征的取值非常多的時候，或者離散特征非常多的時候，簡單的兩兩特征組合將會使得模型的參數(shù)過多，容易出現(xiàn)過擬合問題。同時，并不是所有的特征組合都是有用的。
如何有效的進行？
可以通過梯度提升決策樹，構(gòu)造之后的決策樹就是一種特征組合方法。

文本表示

方法？
由于詞的不同詞性可能表達(dá)的含義相同，所以首先進行詞干轉(zhuǎn)化。
詞袋模型
使用一個長向量表示文章，每一維表示一個單詞。權(quán)重使用TF-IDF。
這是對文章進行詞級別的劃分，但是詞和詞組的意義差別較大，可能無法正確表達(dá)含義。
N-gram模型
通過n個詞組成詞組，建立詞袋模型。
主題模型
詞具有主題分析，通過詞的主題分布表示文章的主題分布。
詞嵌入模型
將詞轉(zhuǎn)化成向量，通常使用深度學(xué)習(xí)實現(xiàn)。這是因為可以自動進行特征工程，每一個隱層可以對應(yīng)不同層的抽象處理?？梢愿脤ξ谋窘?，抽取高層的語義特征。
同時，CNN和RNN效果更好的原因：一方面可以更好地抓住文本特征，另一方面可以減少學(xué)習(xí)的參數(shù)，提高訓(xùn)練速度，降低過擬合的風(fēng)險。
Word2Vec的原理？
Word2Vec有兩種結(jié)構(gòu)：CBOW和Skip-gram。
在結(jié)構(gòu)上，前者是通過上下文得到當(dāng)前詞，后者是通過當(dāng)前詞得到上下文。但是最終的結(jié)果都將導(dǎo)致相鄰的詞之前的距離較小。訓(xùn)練之后的權(quán)重矩陣就是所有詞的向量表示。
Word2Vec和LDA的區(qū)別？
Word2Vec屬于詞嵌入模型，學(xué)習(xí)“上下文-單詞”矩陣。
LDA是主題模型，將“文檔-單詞”矩陣轉(zhuǎn)化為“文檔-主題”和“主題-單詞”矩陣。
兩者最大的區(qū)別在于模型本身：
主題模型：基于概率圖模型的生成式模型，似然函數(shù)是若干條件概率連乘得到的。
詞嵌入模型：神經(jīng)網(wǎng)絡(luò)，似然函數(shù)是定義在網(wǎng)絡(luò)上的，通過網(wǎng)絡(luò)權(quán)重得到的稠密向量。

數(shù)據(jù)不足

問題？
當(dāng)訓(xùn)練數(shù)據(jù)不足時，將會導(dǎo)致過擬合現(xiàn)象的發(fā)生，使得模型的泛化效果不佳。
處理方法？
由于一個模型包含了兩方面的信息：訓(xùn)練數(shù)據(jù)蘊含信息和先驗信息。
當(dāng)前者不足時可以通過提升后者來提高模型的效果。具體有兩種方法。
將先驗信息作用到模型上
可以設(shè)計特點結(jié)構(gòu)的模型；增加約束項，縮小搜索空間；集成學(xué)習(xí)。
將先驗信息作用到數(shù)據(jù)集中
在一定的程度上調(diào)整、變換訓(xùn)練數(shù)據(jù)，擴大訓(xùn)練數(shù)據(jù)集。
比如在圖像分類問題中，可以改變圖像的亮度、對比度、清晰度、銳度等，可以對圖像進行平移、旋轉(zhuǎn)、裁剪、填充、反轉(zhuǎn)等操作，可以對像素增加擾動，對圖像進行顏色變換等處理。
還可以先提取特征，在特征空間上進行變換。
通過生成模型生成數(shù)據(jù)，比如GAN。
還可以將大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型遷移到小數(shù)據(jù)集上，通過微調(diào)提高模型表現(xiàn)。（遷移學(xué)習(xí)）

作者原創(chuàng)，如需轉(zhuǎn)載及其他問題請郵箱聯(lián)系：lwqiang_chn@163.com。
個人網(wǎng)站：https://www.myqiang.top。
GitHub：https://github.com/liuwenqiang1202。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

特征工程

特征工程

問題

特征歸一化

離散型特征處理

特征組合

文本表示

數(shù)據(jù)不足

解答

特征歸一化

離散型特征處理

特征組合

文本表示

數(shù)據(jù)不足

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

特征工程

問題

特征歸一化

離散型特征處理

特征組合

文本表示

數(shù)據(jù)不足

解答

特征歸一化

離散型特征處理

特征組合

文本表示

數(shù)據(jù)不足

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av