今天這篇論文是阿里媽媽蓋坤團(tuán)隊(duì)發(fā)表在SIGIR 18上赫赫有名的“雙塔”模型,主要解決轉(zhuǎn)化率預(yù)估中樣本有偏和數(shù)據(jù)稀疏的問題。論文的全名是:Entire Space Multi-Task Model : An Effective Approach for Estimating Post-Click Conversion Rate
背景
推薦系統(tǒng)中用戶的行為路徑一般是:曝光-點(diǎn)擊-轉(zhuǎn)化,比如在電商推薦場景下,轉(zhuǎn)化就是購買。排序算法需要對曝光點(diǎn)擊率(CTR)和點(diǎn)擊轉(zhuǎn)化率(CVR)進(jìn)行預(yù)估,作為排序的依據(jù)。
pCTR=p(點(diǎn)擊|曝光)
pCVR=p(轉(zhuǎn)化|曝光, 點(diǎn)擊)
CVR預(yù)估現(xiàn)有問題
但一般的CVR預(yù)估算法存在如下兩個(gè)問題:
1、訓(xùn)練樣本選擇有偏(Sample Selection Bias, SSB)
選擇點(diǎn)擊的樣本作為訓(xùn)練集,點(diǎn)擊后轉(zhuǎn)化的為正樣本,點(diǎn)擊后未轉(zhuǎn)化的為負(fù)樣本,但在預(yù)測時(shí),樣本空間變成了全部的曝光樣本。

2、數(shù)據(jù)稀疏(Data Sparsity, DS)
點(diǎn)擊樣本相比曝光很少,在作者舉例的樣本集中,CVR訓(xùn)練可用樣本數(shù)只有CTR訓(xùn)練可用樣本數(shù)的4%,這會(huì)導(dǎo)致模型很難達(dá)到擬合的狀態(tài)。
CVR預(yù)估范式
基于深度學(xué)習(xí)的CVR預(yù)估范式一般采用 Embedding+MLP 的結(jié)構(gòu):
- 特征(包括user和item)輸入 embedding layer
- 經(jīng)過pooling后,拼接成一個(gè)向量
- 輸入MLP

目前的解決方法
- hierarchical estimator: 在不同特征上構(gòu)建分層的估計(jì)器,再通過LR組合,依賴先驗(yàn)知識,并且大規(guī)模的推薦系統(tǒng)很難使用
- 正樣本升采樣
- 用未點(diǎn)擊樣本作為負(fù)樣本
- unbiased method:通過 rejection sampling 擬合真正的分布(解決SSB問題)
方法
一個(gè)公式
先定義一個(gè)曝轉(zhuǎn)率,CTCVR,計(jì)算公式如下:
pCTCVR=pCTR * pCVR
稍微拆解一下
p(點(diǎn)擊, 轉(zhuǎn)化|曝光)=p(點(diǎn)擊|曝光) * p(轉(zhuǎn)化|曝光, 點(diǎn)擊)
網(wǎng)絡(luò)結(jié)構(gòu)
ESMM的主要想法就是把CVR預(yù)估問題,轉(zhuǎn)成CTR預(yù)估和CTCVR預(yù)估問題。


- 將CVR預(yù)估問題轉(zhuǎn)成CTR和CTCVR預(yù)估問題,就可以使用整個(gè)曝光空間的樣本了,解決了SSB和DS問題
- 損失函數(shù)的兩項(xiàng)分別是CTR和CTCVR預(yù)估的損失項(xiàng)
- feature embedding layer 可以共享,達(dá)到遷移學(xué)習(xí)的目的
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)對比了如下幾種模型:
- BASE:使用單塔模型
- AMAN(All Missing As Negative):采樣未點(diǎn)擊的樣本作為負(fù)樣本
- OVERSAMPLING:正樣本升采樣
- UNBIAS:無偏估計(jì)方法
