《百面機(jī)器學(xué)習(xí)》筆記-特征工程相關(guān)面試題2

1. 高維組合特征的處理

什么是組合特征?

將一階離散特征兩兩組合,就可以構(gòu)成二階組合特征

例如,特征a有m個(gè)取值,特別b 有n個(gè)取值,將二者組合就有m*n個(gè)組成情況。這時(shí)需要學(xué)習(xí)的參數(shù)個(gè)數(shù)就是 m×n 個(gè)

如何處理高維組合特征?

問(wèn)題:當(dāng)每個(gè)特征都有千萬(wàn)級(jí)別,就無(wú)法學(xué)習(xí) m×n 規(guī)模的參數(shù)了

解決方案:可以將每個(gè)特征分別用 k 維的低維向量表示,需要學(xué)習(xí)的參數(shù)變?yōu)?m×k+n×k 個(gè),等價(jià)于矩陣分解

應(yīng)該對(duì)哪些特征進(jìn)行組合?

可以用基于決策樹(shù)的方法

  • 首先根據(jù)樣本的數(shù)據(jù)和特征構(gòu)造出一顆決策樹(shù)。

  • 然后從根節(jié)點(diǎn)都葉節(jié)點(diǎn)的每一條路徑,都可以當(dāng)作一種組合方式。

例如,得到的一棵樹(shù)有這樣四條路徑:

(1)“年齡<=30”且“性別=女”。
(2)“年齡<=30”且“物品類別=護(hù)膚品”。
(3)“用戶類型=付費(fèi)”且“物品類型=服飾”。
(4)“用戶類型=付費(fèi)”且“年齡<=50”。

那么新的一條樣本數(shù)據(jù),如果同時(shí)滿足前兩個(gè)路徑,它的向量表示就是 (1,1,0,0)


2. 文本表示模型

詞袋模型

即每篇文章用一個(gè)向量表示,向量的每個(gè)位置代表一個(gè)單詞,每個(gè)位置的數(shù)值代表這個(gè)單詞在文章中的權(quán)重,經(jīng)常用 TF-IDF 。

這個(gè)向量就像是一個(gè)裝滿單詞的袋子,因?yàn)樗鼪](méi)有考慮單詞的順序。

詞嵌入

將每個(gè)詞都映射成低維空間(通常 K=50~300 維)上的稠密向量

Word2Vec

  • 有兩種網(wǎng)絡(luò)結(jié)構(gòu),CBOW 和 Skip-gram

  • CBOW :根據(jù)上下文詞語(yǔ)來(lái)預(yù)測(cè)當(dāng)前詞的生成概率

  • Skip-gram :根據(jù)當(dāng)前詞來(lái)預(yù)測(cè)上下文中各詞的生成概率

  • 兩種改進(jìn)方法:Hierarchical Softmax 和 Negative Sampling


Word2Vec 與 LDA 的區(qū)別和聯(lián)系

  • LDA

    對(duì)“文檔-單詞”矩陣進(jìn)行分解,得到“文檔-主題”和“主題-單詞”兩個(gè)概率分布。

  • Word2Vec

    Word2Vec 其實(shí)是對(duì)“上下文-單詞”矩陣進(jìn)行學(xué)習(xí),得到的詞向量提現(xiàn)了上下文的特征

主題模型和詞嵌入兩類方法的差異

  • 主題模型,基于“上下文-單詞”矩陣進(jìn)行主題推理

    一種基于概率圖模型的生成式模型,似然函數(shù)可以寫成幾個(gè)條件概率連乘的形式

  • 詞嵌入方法,根據(jù)“文檔-單詞”矩陣學(xué)習(xí)出詞的隱含向量表示

    模型一般表達(dá)為神經(jīng)網(wǎng)絡(luò)的形式,似然函數(shù)定義在網(wǎng)絡(luò)的輸出之上

    通過(guò)學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重,進(jìn)而得到單詞的向量表示

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容