五月av婷婷,黄色综合网站,人妻中出久久久久

1. 高維組合特征的處理

什么是組合特征？

將一階離散特征兩兩組合，就可以構(gòu)成二階組合特征

例如，特征a有m個(gè)取值，特別b 有n個(gè)取值，將二者組合就有m*n個(gè)組成情況。這時(shí)需要學(xué)習(xí)的參數(shù)個(gè)數(shù)就是 m×n 個(gè)

如何處理高維組合特征？

問(wèn)題：當(dāng)每個(gè)特征都有千萬(wàn)級(jí)別，就無(wú)法學(xué)習(xí) m×n 規(guī)模的參數(shù)了

解決方案：可以將每個(gè)特征分別用 k 維的低維向量表示，需要學(xué)習(xí)的參數(shù)變?yōu)?m×k+n×k 個(gè)，等價(jià)于矩陣分解

應(yīng)該對(duì)哪些特征進(jìn)行組合？

可以用基于決策樹(shù)的方法

首先根據(jù)樣本的數(shù)據(jù)和特征構(gòu)造出一顆決策樹(shù)。
然后從根節(jié)點(diǎn)都葉節(jié)點(diǎn)的每一條路徑，都可以當(dāng)作一種組合方式。

例如，得到的一棵樹(shù)有這樣四條路徑：

（1）“年齡<=30”且“性別=女”。
（2）“年齡<=30”且“物品類別=護(hù)膚品”。
（3）“用戶類型=付費(fèi)”且“物品類型=服飾”。
（4）“用戶類型=付費(fèi)”且“年齡<=50”。

那么新的一條樣本數(shù)據(jù)，如果同時(shí)滿足前兩個(gè)路徑，它的向量表示就是（1，1，0，0）

2. 文本表示模型

詞袋模型

即每篇文章用一個(gè)向量表示，向量的每個(gè)位置代表一個(gè)單詞，每個(gè)位置的數(shù)值代表這個(gè)單詞在文章中的權(quán)重，經(jīng)常用 TF-IDF 。

這個(gè)向量就像是一個(gè)裝滿單詞的袋子，因?yàn)樗鼪](méi)有考慮單詞的順序。

詞嵌入

將每個(gè)詞都映射成低維空間（通常 K=50～300 維）上的稠密向量

Word2Vec

有兩種網(wǎng)絡(luò)結(jié)構(gòu)，CBOW 和 Skip-gram
CBOW ：根據(jù)上下文詞語(yǔ)來(lái)預(yù)測(cè)當(dāng)前詞的生成概率
Skip-gram ：根據(jù)當(dāng)前詞來(lái)預(yù)測(cè)上下文中各詞的生成概率
兩種改進(jìn)方法：Hierarchical Softmax 和 Negative Sampling

Word2Vec 與 LDA 的區(qū)別和聯(lián)系

LDA

對(duì)“文檔-單詞”矩陣進(jìn)行分解，得到“文檔-主題”和“主題-單詞”兩個(gè)概率分布。

Word2Vec

Word2Vec 其實(shí)是對(duì)“上下文-單詞”矩陣進(jìn)行學(xué)習(xí)，得到的詞向量提現(xiàn)了上下文的特征

主題模型和詞嵌入兩類方法的差異

主題模型，基于“上下文-單詞”矩陣進(jìn)行主題推理

一種基于概率圖模型的生成式模型，似然函數(shù)可以寫成幾個(gè)條件概率連乘的形式
詞嵌入方法，根據(jù)“文檔-單詞”矩陣學(xué)習(xí)出詞的隱含向量表示

模型一般表達(dá)為神經(jīng)網(wǎng)絡(luò)的形式，似然函數(shù)定義在網(wǎng)絡(luò)的輸出之上

通過(guò)學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重，進(jìn)而得到單詞的向量表示

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

《百面機(jī)器學(xué)習(xí)》筆記-特征工程相關(guān)面試題2

《百面機(jī)器學(xué)習(xí)》筆記-特征工程相關(guān)面試題2

1. 高維組合特征的處理

什么是組合特征？

如何處理高維組合特征？

應(yīng)該對(duì)哪些特征進(jìn)行組合？

2. 文本表示模型

詞袋模型

詞嵌入

Word2Vec 與 LDA 的區(qū)別和聯(lián)系

主題模型和詞嵌入兩類方法的差異

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

《百面機(jī)器學(xué)習(xí)》筆記-特征工程相關(guān)面試題2

1. 高維組合特征的處理

什么是組合特征？

如何處理高維組合特征？

應(yīng)該對(duì)哪些特征進(jìn)行組合？

2. 文本表示模型

詞袋模型

詞嵌入

Word2Vec 與 LDA 的區(qū)別和聯(lián)系

主題模型和詞嵌入兩類方法的差異

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

如何處理高維組合特征？

應(yīng)該對(duì)哪些特征進(jìn)行組合？