推薦系統(tǒng)遇上深度學(xué)習(xí)(一三七)-[阿里]廣告精排和創(chuàng)意優(yōu)選聯(lián)合優(yōu)化

今天分享的是阿里在SIGIR2022中稿的一篇短文,主要關(guān)注點在于對廣告推薦鏈路中精排階段和創(chuàng)意優(yōu)選階段的優(yōu)化,一起來看一下。

1、背景

廣告系統(tǒng)中,創(chuàng)意(如標(biāo)題和圖片)包含了豐富的產(chǎn)品信息,能夠幫助用戶快速了解產(chǎn)品。相同的廣告通常情況下有不同的創(chuàng)意,如下圖所示,但不同創(chuàng)意的CTR可能有較大的差別,有的用戶可能偏好于帶促銷信息的圖片,而有的用戶偏好于簡明的圖片風(fēng)格。因此基于用戶的不同偏好,選擇合適的廣告創(chuàng)意展現(xiàn)給用戶,對于廣告系統(tǒng)來說是十分重要的一環(huán)。

現(xiàn)有的廣告推薦系統(tǒng),為了平衡效果和性能,大都數(shù)采用串行多階段的架構(gòu),包括廣告召回、廣告精排階段。精排階段是重點優(yōu)化的部分,往往通過復(fù)雜的模型結(jié)構(gòu)對效果進行優(yōu)化。出于計算復(fù)雜度的考慮,精排階段往往無法將所有的候選創(chuàng)意都考慮在內(nèi),假設(shè)每個廣告有3個候選創(chuàng)意,計算所有創(chuàng)意對應(yīng)的CTR會使QPS增長為3倍,因此大多選擇隨機的創(chuàng)意或者統(tǒng)計CTR最高的創(chuàng)意作為精排階段的輸入。在精排階段之后,再對每個廣告選擇合適的創(chuàng)意進行展示。這種架構(gòu)下,精排階段輸入的并非最終展示的創(chuàng)意,因此創(chuàng)意對于排序的影響是比較小的,對于效果會有一定的影響。

打開收益空間上限的一種理想的優(yōu)化方式是將創(chuàng)意前置,如放在召回和精排中間,在精排前首先為每個廣告選擇合適的創(chuàng)意,再進行精排CTR的預(yù)估。但這種方式仍然存在以下兩方面的挑戰(zhàn):
1)從效率上:多個廣告創(chuàng)意的預(yù)估計算量級會顯著的提升,如何解決創(chuàng)意優(yōu)選前置帶來的耗時問題?
2)從效果上:大部分的廣告創(chuàng)意沒有得到足夠的曝光,在數(shù)據(jù)稀疏的情況下,如何提升創(chuàng)意選擇的準(zhǔn)確性?

為了解決效率和效果兩方面的問題,論文提出了Cascade Architecture of Creative Selection (CACS)的框架,將創(chuàng)意優(yōu)選和精排預(yù)估做了良好的聯(lián)動,一起來看一下。

2、CACS架構(gòu)介紹

2.1 整體架構(gòu)

CACS架構(gòu)如下圖所示:

相較于現(xiàn)有的大多數(shù)框架,CACS將創(chuàng)意選擇前置到精排之前,首先進行廣告內(nèi)部的創(chuàng)意選擇,再進行廣告間的CTR排序。在創(chuàng)意選擇過程中,首先,引入雙塔結(jié)構(gòu),有效控制創(chuàng)意階段的耗時,其次,引入蒸餾學(xué)習(xí),來重點學(xué)習(xí)創(chuàng)意的優(yōu)先順序而非準(zhǔn)確的CTR預(yù)估值,同時也可以在一定程度上減小模型的大小,減少耗時,最后,通過自適應(yīng)的dropout網(wǎng)絡(luò),來學(xué)習(xí)創(chuàng)意的多模態(tài)信息表示,通過多模態(tài)的side-information來減少創(chuàng)意沒有足夠曝光所帶來的影響。接下來,對這兩部分的具體結(jié)構(gòu)進行介紹。

2.2 List-wise Ranking Distillation

在創(chuàng)意優(yōu)選階段,重點是預(yù)估準(zhǔn)確的創(chuàng)意之間的序關(guān)系,而非準(zhǔn)確的CTR預(yù)估值, 因此論文提出了List-wise Ranking Distillation方法,引入精排階段的模型進行蒸餾學(xué)習(xí)。

在loss設(shè)計上,并非直接學(xué)習(xí)精排模型給出的CTR值,而是通過交叉熵?fù)p失,使得創(chuàng)意選擇模型給出的top1的創(chuàng)意和精排模型給出的top1的創(chuàng)意盡可能接近。具體來說,假設(shè)創(chuàng)意優(yōu)選模型計算的score為{s1,s2,...,sm},精排模型給出的score為{y1,y2,...,ym}。假設(shè)第i個創(chuàng)意為精排給出的top1的創(chuàng)意,那么loss計算如下:

2.3 Adaptive Dropout Network

由于大多數(shù)創(chuàng)意沒有足夠的展示,因此僅僅使用ID特征會面臨數(shù)據(jù)稀疏的問題,很多ID對應(yīng)的Embedding無法進行充分的學(xué)習(xí),因此在輸入特征上,引入了標(biāo)題、圖片等多模態(tài)的side-information。并通過CNN和Bert等對圖像和文本信息進行處理。不同用戶對于不同模態(tài)的信息關(guān)注程度不同,進一步引入Attention機制來對用戶的模態(tài)信息偏好進行建模。

另一方面,為了減少ID特征對于最終結(jié)果的影響,論文提出了自適應(yīng)的Dropout網(wǎng)絡(luò),基于ID對應(yīng)的曝光量自適應(yīng)計算Dropout的比例,如果曝光次數(shù)越多,ID學(xué)習(xí)越充分,此時可以更多依賴ID信息來進行預(yù)測,dropout的比例可以適當(dāng)減少,反之增加,過濾比例計算如下:

基于每個創(chuàng)意的dropout比例,通過伯努利分布計算得到對應(yīng)的mask,再乘上相應(yīng)的系數(shù)保證訓(xùn)練和預(yù)測階段的分布一致:

論文的基本思路就介紹到這里,接下來看一下實驗結(jié)果。

3、實驗結(jié)果

論文的實驗結(jié)果分離線和在線兩部分。首先來看下離線部分,離線實驗主要關(guān)注創(chuàng)意選擇方法的準(zhǔn)確性,結(jié)果如下:

線上部分主要關(guān)注CACS架構(gòu)和無創(chuàng)意優(yōu)選模塊以及傳統(tǒng)創(chuàng)意選擇架構(gòu)的對比,關(guān)注效果和耗時兩方面,結(jié)果如下:

好了,論文就介紹到這里,感興趣的同學(xué)可以閱讀原文~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容