論文閱讀:ESMM

今天這篇論文是阿里媽媽蓋坤團隊發(fā)表在SIGIR 18上赫赫有名的“雙塔”模型,主要解決轉(zhuǎn)化率預估中樣本有偏和數(shù)據(jù)稀疏的問題。論文的全名是:Entire Space Multi-Task Model : An Effective Approach for Estimating Post-Click Conversion Rate

背景

推薦系統(tǒng)中用戶的行為路徑一般是:曝光-點擊-轉(zhuǎn)化,比如在電商推薦場景下,轉(zhuǎn)化就是購買。排序算法需要對曝光點擊率(CTR)和點擊轉(zhuǎn)化率(CVR)進行預估,作為排序的依據(jù)。

pCTR=p(點擊|曝光)

pCVR=p(轉(zhuǎn)化|曝光, 點擊)

CVR預估現(xiàn)有問題

但一般的CVR預估算法存在如下兩個問題:

1、訓練樣本選擇有偏(Sample Selection Bias, SSB)

選擇點擊的樣本作為訓練集,點擊后轉(zhuǎn)化的為正樣本,點擊后未轉(zhuǎn)化的為負樣本,但在預測時,樣本空間變成了全部的曝光樣本。

image.png

2、數(shù)據(jù)稀疏(Data Sparsity, DS)

點擊樣本相比曝光很少,在作者舉例的樣本集中,CVR訓練可用樣本數(shù)只有CTR訓練可用樣本數(shù)的4%,這會導致模型很難達到擬合的狀態(tài)。

CVR預估范式

基于深度學習的CVR預估范式一般采用 Embedding+MLP 的結(jié)構(gòu):

  • 特征(包括user和item)輸入 embedding layer
  • 經(jīng)過pooling后,拼接成一個向量
  • 輸入MLP
image.png

目前的解決方法

  • hierarchical estimator: 在不同特征上構(gòu)建分層的估計器,再通過LR組合,依賴先驗知識,并且大規(guī)模的推薦系統(tǒng)很難使用
  • 正樣本升采樣
  • 用未點擊樣本作為負樣本
  • unbiased method:通過 rejection sampling 擬合真正的分布(解決SSB問題)

方法

一個公式

先定義一個曝轉(zhuǎn)率,CTCVR,計算公式如下:

pCTCVR=pCTR * pCVR

稍微拆解一下

p(點擊, 轉(zhuǎn)化|曝光)=p(點擊|曝光) * p(轉(zhuǎn)化|曝光, 點擊)

網(wǎng)絡結(jié)構(gòu)

ESMM的主要想法就是把CVR預估問題,轉(zhuǎn)成CTR預估和CTCVR預估問題。

image.png
image.png
  • 將CVR預估問題轉(zhuǎn)成CTR和CTCVR預估問題,就可以使用整個曝光空間的樣本了,解決了SSB和DS問題
  • 損失函數(shù)的兩項分別是CTR和CTCVR預估的損失項
  • feature embedding layer 可以共享,達到遷移學習的目的

實驗結(jié)果

實驗對比了如下幾種模型:

  • BASE:使用單塔模型
  • AMAN(All Missing As Negative):采樣未點擊的樣本作為負樣本
  • OVERSAMPLING:正樣本升采樣
  • UNBIAS:無偏估計方法
image.png
最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容