今天這篇論文是阿里媽媽蓋坤團隊發(fā)表在SIGIR 18上赫赫有名的“雙塔”模型，主要解決轉(zhuǎn)化率預估中樣本有偏和數(shù)據(jù)稀疏的問題。論文的全名是：Entire Space Multi-Task Model : An Effective Approach for Estimating Post-Click Conversion Rate

背景

推薦系統(tǒng)中用戶的行為路徑一般是：曝光-點擊-轉(zhuǎn)化，比如在電商推薦場景下，轉(zhuǎn)化就是購買。排序算法需要對曝光點擊率（CTR）和點擊轉(zhuǎn)化率（CVR）進行預估，作為排序的依據(jù)。

pCTR=p(點擊|曝光)

pCVR=p(轉(zhuǎn)化|曝光, 點擊)

CVR預估現(xiàn)有問題

但一般的CVR預估算法存在如下兩個問題：

1、訓練樣本選擇有偏（Sample Selection Bias, SSB）

選擇點擊的樣本作為訓練集，點擊后轉(zhuǎn)化的為正樣本，點擊后未轉(zhuǎn)化的為負樣本，但在預測時，樣本空間變成了全部的曝光樣本。

image.png

2、數(shù)據(jù)稀疏（Data Sparsity, DS）

點擊樣本相比曝光很少，在作者舉例的樣本集中，CVR訓練可用樣本數(shù)只有CTR訓練可用樣本數(shù)的4%，這會導致模型很難達到擬合的狀態(tài)。

CVR預估范式

基于深度學習的CVR預估范式一般采用 Embedding+MLP 的結(jié)構(gòu)：

特征（包括user和item）輸入 embedding layer
經(jīng)過pooling后，拼接成一個向量
輸入MLP

image.png

目前的解決方法

hierarchical estimator: 在不同特征上構(gòu)建分層的估計器，再通過LR組合，依賴先驗知識，并且大規(guī)模的推薦系統(tǒng)很難使用
正樣本升采樣
用未點擊樣本作為負樣本
unbiased method：通過 rejection sampling 擬合真正的分布（解決SSB問題）

方法

一個公式

先定義一個曝轉(zhuǎn)率，CTCVR，計算公式如下：

pCTCVR=pCTR * pCVR

稍微拆解一下

p(點擊, 轉(zhuǎn)化|曝光)=p(點擊|曝光) * p(轉(zhuǎn)化|曝光, 點擊)

網(wǎng)絡結(jié)構(gòu)

ESMM的主要想法就是把CVR預估問題，轉(zhuǎn)成CTR預估和CTCVR預估問題。

image.png

將CVR預估問題轉(zhuǎn)成CTR和CTCVR預估問題，就可以使用整個曝光空間的樣本了，解決了SSB和DS問題
損失函數(shù)的兩項分別是CTR和CTCVR預估的損失項
feature embedding layer 可以共享，達到遷移學習的目的

實驗結(jié)果

實驗對比了如下幾種模型：

BASE：使用單塔模型
AMAN（All Missing As Negative）：采樣未點擊的樣本作為負樣本
OVERSAMPLING：正樣本升采樣
UNBIAS：無偏估計方法

image.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文閱讀：ESMM

論文閱讀：ESMM

背景

CVR預估現(xiàn)有問題

CVR預估范式

目前的解決方法

方法

一個公式

網(wǎng)絡結(jié)構(gòu)

實驗結(jié)果

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文閱讀：ESMM

背景

CVR預估現(xiàn)有問題

CVR預估范式

目前的解決方法

方法

一個公式

網(wǎng)絡結(jié)構(gòu)

實驗結(jié)果

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av