推薦系統(tǒng)(一)LR,F(xiàn)M,F(xiàn)FM,Wide&Deep,DeepFM,ESMM

一、LR

(一)簡單總結(jié)

  • 是廣義線性模型,每個特征都是獨立的,如果需要考慮特征與特征之間的相互作用,需要人工對特征進(jìn)行交叉組合。
  • 非線性SVM可以對特征進(jìn)行核變換,但是在特征高度稀疏的情況下,并不能很好的進(jìn)行學(xué)習(xí)。

(二)FTRL


二、FM

Rendle S. Factorization Machines[C]// IEEE International Conference on Data Mining. 2011.

(一)簡單背景介紹

  • 解決數(shù)據(jù)稀疏的情況下,特征怎樣組合的問題。
  • 對于一階參數(shù)的訓(xùn)練,只要這個樣本中對應(yīng)的變量不為0,而二階的參數(shù)必須兩個變量同時不為0才可以。在數(shù)據(jù)稀疏時,很多特征交互是模型無法訓(xùn)練的。
  • LR是需要特征工程的,SVM在稀疏場景下無法用。
  • 通過參數(shù)矩陣分解,打破了特征組合之間的獨立性,使一個組合特征的學(xué)習(xí)可以受到其他相關(guān)組合特征的幫助。
  • 原本預(yù)測公式的復(fù)雜度:O(kn2),可以通過轉(zhuǎn)換變?yōu)?O(kn)。

(二)公式推導(dǎo)

預(yù)測公式

O(kn2)變O(kn)

隨機(jī)梯度下降,O(kn)

三、FFM

2016年發(fā)表在 recsys 上的論文

(一)簡單介紹

  • FM:一個特征對應(yīng)一個隱變量;FFM:將特征分為多個field,每個特征對每個field分別有一個隱變量,因為同一個特征對不同field的影響可能是不同的,隱變量也應(yīng)該不同。
  • 舉個例子,我們的樣本有3種類型的字段:publisher, advertiser, gender。其中publisher有5種,advertiser有10種,gender有2種,one-hot編碼后,每個樣本有17個特征,其中只有3個非空。
    FM,17個特征,每個特征對應(yīng)1個隱變量。
    FFM,17個特征,每個特征對應(yīng)3個隱變量。

(二)模型介紹

  • 表達(dá)式
  • AdaGrad求解

四、Wide & Deep

2016年谷歌團(tuán)隊發(fā)表的一篇文章
Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.

(一)wide 和 deep 的比較

  • wide:廣泛應(yīng)用于具有稀疏、大規(guī)模場景。組合特征有效且可解釋性強(qiáng),但需要很多特征工程,且對于未出現(xiàn)過的組合無法學(xué)習(xí)。
  • deep:需要較少的特征工程,泛化能力強(qiáng),可以通過稀疏特征 embedding 學(xué)習(xí)到未出現(xiàn)過的特征組合。但容易過泛化,推薦不太相關(guān)的東西。
  • wide & deep:記憶和泛化的結(jié)合。

(二)memorization 和 generalization(EE問題)

  • memorization:exploit,學(xué)習(xí)頻繁出現(xiàn)的特征組合,從歷史數(shù)據(jù)中學(xué)習(xí)相關(guān)性。容易推薦和用戶瀏覽歷史相似的東西。
  • generalization:explore,基于相關(guān)性的傳遞,學(xué)習(xí)未出現(xiàn)過的特征組合。容易推薦不一樣的,新的東西。

(三)模型結(jié)構(gòu)

The spectrum of Wide & Deep models

Wide & Deep model structure for apps recommendation

(四)其他

  • 模型訓(xùn)練:
    wide:FTRL
    deep:AdaGrad

  • 預(yù)測公式

五、DeepFM

華為2017年的文章
Guo H, Tang R, Ye Y, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.

(一)優(yōu)勢

  • 是端對端的學(xué)習(xí)模型,wide 部分和 deep 部分共享一樣的輸入,不需要額外的特征工程,能夠同時學(xué)習(xí)到低階和高階的特征交互。
  • 線性模型雖然十分有效,但是無法刻畫交互特征,需要很多特征工程,缺點是無法刻畫高階特征交互,也無法學(xué)習(xí)到在訓(xùn)練集中出現(xiàn)次數(shù)很少的特征組合。FM可以學(xué)習(xí)到2階的特征組合。

(二)特征

  • 連續(xù)特征:值本身,或者離散化后one-hot
  • 離散特征:one-hot
  • CTR預(yù)估場景中,特征的特點:
    1)稀疏
    2)連續(xù)特征和類別特征混合
    3)根據(jù)field分組
    因此加入了embedding層

(三)模型介紹

  • 預(yù)測分為兩部分


    預(yù)測公式

  • FM:能更有效的學(xué)習(xí)到2階交互特征,尤其是在稀疏場景下


    FM Component

    FM公式
  • Deep:


    Deep Component
  • embedding


    The structure of the embedding layer

    1)每個 field 的input大小不一樣,但是embedding都一樣大;
    2)在FM中V是一個m*k階的矩陣,這里用V來作為input到embedding的權(quán)重,一起訓(xùn)練,而不是像其他work一樣用FM來預(yù)訓(xùn)練。

(四)共享embedding

  • 從原始特征中同時學(xué)到了特征之間的低階和高階組合
  • 不需要像 wide & deep 一樣做特征工程,端到端學(xué)習(xí)

六、ESMM

ESMM是2018年阿里媽媽團(tuán)隊提出的一個多任務(wù)模型。
Ma X , Zhao L , Huang G , et al. Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate[J]. 2018.

(一)傳統(tǒng)CVR預(yù)估面臨的兩個問題

  • SSB(sample selection bias )

    impression表示展示,click表示點擊,conversion表示轉(zhuǎn)化,用戶的行為模式是impression->click->conversion,傳統(tǒng)的CVR預(yù)估把click(如圖灰色)作為training data,而訓(xùn)練出來的模型要在所有impression(如圖白色)中進(jìn)行預(yù)測,存在樣本選擇偏差。

  • DS(data sparsity)
    由于點擊行為實在是太少了,利用點擊數(shù)據(jù)作為樣本訓(xùn)練CVR預(yù)估模型存在數(shù)據(jù)稀疏問題。

(二)本文怎么解決

  • Modeling over entire space(解決SSB)
    CVR:conversion / click
    CTR:click / impression
    CTCVR:conversion / impression

    通過預(yù)測CTCVR和CTR,然后相除得到CVR,由于CTCVR和CTR都是在整個impression樣本空間進(jìn)行估計的,因此解決了SSB問題。
  • (Feature representation transfer)解決DS
    CVR和CTR共享特征embedding表示,CTR訓(xùn)練數(shù)據(jù)要比CVR訓(xùn)練數(shù)據(jù)多很多,一定程度上解決了數(shù)據(jù)稀疏性問題。

(三)技術(shù)細(xì)節(jié)

Modeling over entire space

模型引入兩個輔助任務(wù),pCTR和pCTCVR,從而間接學(xué)習(xí)到pCVR

  • CTR:有點擊行為的曝光為正樣本,沒有點擊行為發(fā)生的曝光為負(fù)樣本
    CTCVR:同時點擊和購買的曝光為正樣本,否則標(biāo)記為負(fù)樣本。
    CTR和CTCVR都是在整個樣本空間的,解決了SSB問題。
  • 損失函數(shù)由兩部分組成, CTR 和 CTCVR,兩部分都采用交叉熵?fù)p失函數(shù)。

Feature representation transfer

  • ESMM中,CVR網(wǎng)絡(luò)和CTR網(wǎng)絡(luò)共享embedding字典。該共享機(jī)制使ESMM中的CVR網(wǎng)絡(luò)能夠從 un-clicked impression 中學(xué)習(xí),緩解數(shù)據(jù)稀疏性問題。
  • 另外,ESMM模型中的子網(wǎng)絡(luò)結(jié)構(gòu)可以用其他模型替換,ESMM只是提供了一種解決問題的思路,具體應(yīng)用還需要根據(jù)實際業(yè)務(wù)場景進(jìn)行調(diào)整。

七、DSSM


參考資料

ESSM論文地址
精讀&解析 Entire Space Multi-Task Model(ESMM) 阿里2018年CVR預(yù)測
推薦系統(tǒng)遇上深度學(xué)習(xí)(三)--DeepFM模型理論和實踐

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容