論文閱讀:ESMM

今天這篇論文是阿里媽媽蓋坤團(tuán)隊(duì)發(fā)表在SIGIR 18上赫赫有名的“雙塔”模型,主要解決轉(zhuǎn)化率預(yù)估中樣本有偏和數(shù)據(jù)稀疏的問題。論文的全名是:Entire Space Multi-Task Model : An Effective Approach for Estimating Post-Click Conversion Rate

背景

推薦系統(tǒng)中用戶的行為路徑一般是:曝光-點(diǎn)擊-轉(zhuǎn)化,比如在電商推薦場景下,轉(zhuǎn)化就是購買。排序算法需要對曝光點(diǎn)擊率(CTR)和點(diǎn)擊轉(zhuǎn)化率(CVR)進(jìn)行預(yù)估,作為排序的依據(jù)。

pCTR=p(點(diǎn)擊|曝光)

pCVR=p(轉(zhuǎn)化|曝光, 點(diǎn)擊)

CVR預(yù)估現(xiàn)有問題

但一般的CVR預(yù)估算法存在如下兩個(gè)問題:

1、訓(xùn)練樣本選擇有偏(Sample Selection Bias, SSB)

選擇點(diǎn)擊的樣本作為訓(xùn)練集,點(diǎn)擊后轉(zhuǎn)化的為正樣本,點(diǎn)擊后未轉(zhuǎn)化的為負(fù)樣本,但在預(yù)測時(shí),樣本空間變成了全部的曝光樣本。

image.png

2、數(shù)據(jù)稀疏(Data Sparsity, DS)

點(diǎn)擊樣本相比曝光很少,在作者舉例的樣本集中,CVR訓(xùn)練可用樣本數(shù)只有CTR訓(xùn)練可用樣本數(shù)的4%,這會(huì)導(dǎo)致模型很難達(dá)到擬合的狀態(tài)。

CVR預(yù)估范式

基于深度學(xué)習(xí)的CVR預(yù)估范式一般采用 Embedding+MLP 的結(jié)構(gòu):

  • 特征(包括user和item)輸入 embedding layer
  • 經(jīng)過pooling后,拼接成一個(gè)向量
  • 輸入MLP
image.png

目前的解決方法

  • hierarchical estimator: 在不同特征上構(gòu)建分層的估計(jì)器,再通過LR組合,依賴先驗(yàn)知識,并且大規(guī)模的推薦系統(tǒng)很難使用
  • 正樣本升采樣
  • 用未點(diǎn)擊樣本作為負(fù)樣本
  • unbiased method:通過 rejection sampling 擬合真正的分布(解決SSB問題)

方法

一個(gè)公式

先定義一個(gè)曝轉(zhuǎn)率,CTCVR,計(jì)算公式如下:

pCTCVR=pCTR * pCVR

稍微拆解一下

p(點(diǎn)擊, 轉(zhuǎn)化|曝光)=p(點(diǎn)擊|曝光) * p(轉(zhuǎn)化|曝光, 點(diǎn)擊)

網(wǎng)絡(luò)結(jié)構(gòu)

ESMM的主要想法就是把CVR預(yù)估問題,轉(zhuǎn)成CTR預(yù)估和CTCVR預(yù)估問題。

image.png
image.png
  • 將CVR預(yù)估問題轉(zhuǎn)成CTR和CTCVR預(yù)估問題,就可以使用整個(gè)曝光空間的樣本了,解決了SSB和DS問題
  • 損失函數(shù)的兩項(xiàng)分別是CTR和CTCVR預(yù)估的損失項(xiàng)
  • feature embedding layer 可以共享,達(dá)到遷移學(xué)習(xí)的目的

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)對比了如下幾種模型:

  • BASE:使用單塔模型
  • AMAN(All Missing As Negative):采樣未點(diǎn)擊的樣本作為負(fù)樣本
  • OVERSAMPLING:正樣本升采樣
  • UNBIAS:無偏估計(jì)方法
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容