
1. 高維組合特征的處理
什么是組合特征?
將一階離散特征兩兩組合,就可以構(gòu)成二階組合特征
例如,特征a有m個(gè)取值,特別b 有n個(gè)取值,將二者組合就有m*n個(gè)組成情況。這時(shí)需要學(xué)習(xí)的參數(shù)個(gè)數(shù)就是 m×n 個(gè)

如何處理高維組合特征?
問(wèn)題:當(dāng)每個(gè)特征都有千萬(wàn)級(jí)別,就無(wú)法學(xué)習(xí) m×n 規(guī)模的參數(shù)了
解決方案:可以將每個(gè)特征分別用 k 維的低維向量表示,需要學(xué)習(xí)的參數(shù)變?yōu)?m×k+n×k 個(gè),等價(jià)于矩陣分解
應(yīng)該對(duì)哪些特征進(jìn)行組合?
可以用基于決策樹(shù)的方法
首先根據(jù)樣本的數(shù)據(jù)和特征構(gòu)造出一顆決策樹(shù)。
然后從根節(jié)點(diǎn)都葉節(jié)點(diǎn)的每一條路徑,都可以當(dāng)作一種組合方式。
例如,得到的一棵樹(shù)有這樣四條路徑:
(1)“年齡<=30”且“性別=女”。
(2)“年齡<=30”且“物品類別=護(hù)膚品”。
(3)“用戶類型=付費(fèi)”且“物品類型=服飾”。
(4)“用戶類型=付費(fèi)”且“年齡<=50”。
那么新的一條樣本數(shù)據(jù),如果同時(shí)滿足前兩個(gè)路徑,它的向量表示就是 (1,1,0,0)
2. 文本表示模型
詞袋模型

即每篇文章用一個(gè)向量表示,向量的每個(gè)位置代表一個(gè)單詞,每個(gè)位置的數(shù)值代表這個(gè)單詞在文章中的權(quán)重,經(jīng)常用 TF-IDF 。
這個(gè)向量就像是一個(gè)裝滿單詞的袋子,因?yàn)樗鼪](méi)有考慮單詞的順序。
詞嵌入
將每個(gè)詞都映射成低維空間(通常 K=50~300 維)上的稠密向量
Word2Vec

有兩種網(wǎng)絡(luò)結(jié)構(gòu),CBOW 和 Skip-gram
CBOW :根據(jù)上下文詞語(yǔ)來(lái)預(yù)測(cè)當(dāng)前詞的生成概率
Skip-gram :根據(jù)當(dāng)前詞來(lái)預(yù)測(cè)上下文中各詞的生成概率
兩種改進(jìn)方法:Hierarchical Softmax 和 Negative Sampling
Word2Vec 與 LDA 的區(qū)別和聯(lián)系
-
LDA
對(duì)“文檔-單詞”矩陣進(jìn)行分解,得到“文檔-主題”和“主題-單詞”兩個(gè)概率分布。

-
Word2Vec
Word2Vec 其實(shí)是對(duì)“上下文-單詞”矩陣進(jìn)行學(xué)習(xí),得到的詞向量提現(xiàn)了上下文的特征
主題模型和詞嵌入兩類方法的差異
-
主題模型,基于“上下文-單詞”矩陣進(jìn)行主題推理
一種基于概率圖模型的生成式模型,似然函數(shù)可以寫成幾個(gè)條件概率連乘的形式
-
詞嵌入方法,根據(jù)“文檔-單詞”矩陣學(xué)習(xí)出詞的隱含向量表示
模型一般表達(dá)為神經(jīng)網(wǎng)絡(luò)的形式,似然函數(shù)定義在網(wǎng)絡(luò)的輸出之上
通過(guò)學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重,進(jìn)而得到單詞的向量表示