推薦論文閱讀之ESM2

介紹

CVR轉(zhuǎn)化率預(yù)估過(guò)程中存在樣本選擇偏差數(shù)據(jù)稀疏問(wèn)題。這兩個(gè)問(wèn)題在阿里的上一篇論文ESMM中有提到,這里介紹一下。

  • 樣本選擇偏差:CVR模型建模通常使用點(diǎn)擊后的樣本post-click,或者說(shuō)使用記錄用戶(hù)在點(diǎn)擊后是否產(chǎn)生訂單的數(shù)據(jù);而模型在實(shí)際應(yīng)用過(guò)程中是在整個(gè)樣本空間上,用戶(hù)還沒(méi)有發(fā)生點(diǎn)擊。這就導(dǎo)致數(shù)據(jù)有偏,不同分布。在post-click樣本上建模后,在實(shí)際應(yīng)用過(guò)程中并不能保證模型的準(zhǔn)確性,而且應(yīng)用模型的泛化能力。
樣本空間
  • 數(shù)據(jù)稀疏:在電商系統(tǒng),如淘寶,用戶(hù)的行為鏈,通常包括曝光、點(diǎn)擊、購(gòu)買(mǎi),各個(gè)階段的數(shù)據(jù)量逐漸減少。使用post-click數(shù)據(jù)建模,這部分?jǐn)?shù)據(jù)量相較于用于CTR訓(xùn)練的數(shù)據(jù)少1-3個(gè)數(shù)量級(jí)。

ESMM模型使用多任務(wù)學(xué)習(xí),分別學(xué)習(xí)post-view點(diǎn)擊率CTR和post-view 點(diǎn)擊轉(zhuǎn)化率CTCVR,目標(biāo)CVR通過(guò)兩者計(jì)算得到CVR=CTCVR/CTR;點(diǎn)擊率CTR是在整個(gè)樣本空間上,即所有的曝光樣本進(jìn)行訓(xùn)練,CTCVR也是在整個(gè)曝光樣本上進(jìn)行訓(xùn)練,pCTCVR=pCTRpCVR,最終的CVR任務(wù)也是在整個(gè)曝光樣本上進(jìn)行訓(xùn)練,應(yīng)用,這樣就可以解決樣本選擇偏差問(wèn)題。同時(shí)兩個(gè)任務(wù)CTR、CVR底層的embedding權(quán)重是共享的,可以緩解*數(shù)據(jù)稀疏問(wèn)題。但是由于訂單樣本相較于曝光樣本來(lái)說(shuō)是在是太少,只有不到0.1%的曝光樣本最后產(chǎn)生了訂單;數(shù)據(jù)稀疏問(wèn)題不能得到充分解決。

行為分析

通過(guò)對(duì)用戶(hù)的網(wǎng)購(gòu)行為進(jìn)行分析,發(fā)現(xiàn)用戶(hù)在發(fā)生點(diǎn)擊行為后通常會(huì)有幾種和購(gòu)買(mǎi)行為相關(guān)的操作,進(jìn)而提出了一種將post-click行為分解的建模方法。post-click行為根據(jù)是否和購(gòu)買(mǎi)行為相關(guān),可以分為決定性行為Deterministic和其他行為,決定性行為包括:加入購(gòu)物車(chē),加入心愿清單。這兩種行為插在點(diǎn)擊和購(gòu)買(mǎi)之間,形成行為序列"曝光->點(diǎn)擊->D(O) Action ->購(gòu)買(mǎi)"。在這個(gè)行為序列圖上進(jìn)行模型建模,可以充分利用整個(gè)樣本空間上的曝光樣本,此外,由于加入購(gòu)物車(chē)、加入心愿清單的樣本數(shù)據(jù)相比購(gòu)買(mǎi)數(shù)據(jù)會(huì)大很多,使用來(lái)自D、O Action的監(jiān)督信號(hào)可以同時(shí)有效解決抽樣選擇偏差和數(shù)據(jù)稀疏問(wèn)題。

基于這個(gè)想法,提出了ESM2模型。根據(jù)在序列圖上定義的條件概率,使用多任務(wù)學(xué)習(xí)分別預(yù)測(cè)各自的小目標(biāo),然后將它們合并構(gòu)成最終的CVR預(yù)測(cè)結(jié)果。

image-20201121155346640

模型分為3個(gè)模塊:SEM、DPM和SCM。其中SEM,embedding權(quán)重共享層,在多個(gè)子任務(wù)之間共享權(quán)重,充分利用所有的曝光樣本數(shù)據(jù);DPM,分解預(yù)測(cè)模塊,分解計(jì)算自己的任務(wù)task;最后是SCM,序列組合模塊,將多任務(wù)的結(jié)果進(jìn)行組合,構(gòu)成最終的目標(biāo)CVR。

簡(jiǎn)單來(lái)說(shuō),ESM2的三個(gè)模塊,功能分別是embedding訓(xùn)練結(jié)果共享、單任務(wù)訓(xùn)練,多任務(wù)組合得到最終結(jié)果CVR。

用戶(hù)行為序列"曝光-> 點(diǎn)擊->D/O Action -> 購(gòu)買(mǎi)",從收集到的數(shù)據(jù)集,我們可以知道構(gòu)建不同的標(biāo)簽,是否點(diǎn)擊、是否點(diǎn)擊&發(fā)生D行為、是否點(diǎn)擊&發(fā)生O行為,是否點(diǎn)擊&是否轉(zhuǎn)化(可以簡(jiǎn)化為是否轉(zhuǎn)化),因?yàn)镈行為和O行為是互斥的,點(diǎn)擊&發(fā)生O行為=1-點(diǎn)擊&發(fā)生D行為。不同的標(biāo)簽就可以用于不同的任務(wù)進(jìn)行學(xué)習(xí)、訓(xùn)練。

任務(wù)分解

曝光-> 點(diǎn)擊:點(diǎn)擊率建模。在整個(gè)曝光樣本上進(jìn)行訓(xùn)練。

pctr

表示曝光后發(fā)生點(diǎn)擊的概率,v表示是否發(fā)生曝光,取值為{0,1};c表示是否發(fā)生點(diǎn)擊行為,取值為{0,1}。下標(biāo)i表示第i個(gè)曝光樣本。p_i^{ctr}=y_{1i}

曝光-> 點(diǎn)擊 -> D Action:在整個(gè)曝光樣本上進(jìn)行建模。

ctavr

其中,a表示是否發(fā)生D行為,取值為{0,1}。

根據(jù)全概率公式可以,曝光樣本發(fā)生D行為的概率等于曝光樣本發(fā)生點(diǎn)擊&D行為的概率 + 曝光樣本未發(fā)生點(diǎn)擊但發(fā)生D行為的概率。因?yàn)槿绻毓鈽颖景l(fā)生了D行為,那么必然發(fā)生了點(diǎn)擊行為,所以p(a_i=1|v_i=1,c_i=0)=0, p_i^{ctavr}=y_{2i}y_{1i},其中y_{2i}表示第i個(gè)曝光點(diǎn)擊樣本發(fā)生D行為的概率:點(diǎn)擊->D Action。

點(diǎn)擊->轉(zhuǎn)化:點(diǎn)擊->D/O Action -> 轉(zhuǎn)化。

pcvr

其中b表示第i個(gè)曝光樣本發(fā)生轉(zhuǎn)化行為,取值為{0,1}。根據(jù)全概率公式和條件概率公式可以知道,

CVR=P(轉(zhuǎn)化|點(diǎn)擊,D Action) + P(轉(zhuǎn)化|點(diǎn)擊,O Action)

P(轉(zhuǎn)化|點(diǎn)擊,D Action)=P(轉(zhuǎn)化,D Action|點(diǎn)擊)*P(D Action|點(diǎn)擊)

P(轉(zhuǎn)化|點(diǎn)擊,O Action)=P(轉(zhuǎn)化,O Action|點(diǎn)擊) * P(O Action|點(diǎn)擊)

image-20201121172052119

曝光-> 點(diǎn)擊->轉(zhuǎn)化:曝光-> 點(diǎn)擊-> D/O Action->轉(zhuǎn)化,完整行為序列。

image-20201121172324663

PCTCVR=PCTR*PCVR.

根據(jù)收集到的三類(lèi)標(biāo)簽:曝光后是否點(diǎn)擊、曝光樣本是否發(fā)生D Action(曝光->點(diǎn)擊->D Action),曝光樣本是否發(fā)生轉(zhuǎn)化(曝光-> 點(diǎn)擊->D/O Action ->轉(zhuǎn)化),可以分別對(duì)pctr、pctavr、pctcvr在整個(gè)曝光樣本上進(jìn)行建模訓(xùn)練。同時(shí)根據(jù)條件概率可以知道,我們最終的目標(biāo)PCVR也適用于整個(gè)曝光樣本,pCVR=pCTCVR/pCTR,這樣就可以解決樣本選擇偏差問(wèn)題,同時(shí)由于D/O Action行為樣本相比于轉(zhuǎn)化樣本數(shù)據(jù)量會(huì)提升,對(duì)于數(shù)據(jù)稀疏問(wèn)題也可以得到進(jìn)一步緩解。

Loss定義

三類(lèi)標(biāo)簽,三種loss分別是pctr、pctavr、pctcvr loss。每種loss使用交叉熵?fù)p失函數(shù):

ctr loss
ctavr loss

[圖片上傳失敗...(image-e9b19f-1605970000092)]

最終loss為三者的加權(quán)和:

Loss函數(shù)

實(shí)驗(yàn)&其他

實(shí)驗(yàn)結(jié)果

其他:

深度學(xué)習(xí)網(wǎng)絡(luò)的超參數(shù)調(diào)整

控制變量法。逐個(gè)調(diào)整,對(duì)于調(diào)整的當(dāng)前超參數(shù),比如MLP層數(shù),通過(guò)選擇不同的參數(shù),進(jìn)行訓(xùn)練、評(píng)估驗(yàn)證;將評(píng)估結(jié)果整理,通過(guò)圖表展示,選擇合適的參數(shù)。

調(diào)參

數(shù)值特征的embedding表示

對(duì)于數(shù)值特征進(jìn)行embedding表示前,一般需要先進(jìn)行離散化表示轉(zhuǎn)化為one-hot特征,進(jìn)而embedding訓(xùn)練。論文指出,數(shù)值特征離散onehot轉(zhuǎn)化后進(jìn)行embedding訓(xùn)練會(huì)影響模型的表現(xiàn)效果。因此,對(duì)數(shù)值特征進(jìn)行正則化,然后進(jìn)行tanh函數(shù)轉(zhuǎn)化,這部分特征不進(jìn)行embedding訓(xùn)練表示。

數(shù)值特征轉(zhuǎn)化

這部分特征轉(zhuǎn)化后直接拼接離散特征的embedding表示,然后送到esm2模型進(jìn)行訓(xùn)練、評(píng)估。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容