論文：

論文題目：《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction》

這是阿里媽媽發(fā)表在2020SIGIR上面的又一篇佳作，讓我們來閱讀一下這篇論文吧。

一、背景

在CTR/CVR預(yù)估領(lǐng)域中，用戶歷史行為對CTR/CVR預(yù)估的建模是很有指導(dǎo)意義的，用戶的歷史行為序列中潛藏著用戶豐富的”興趣點“，用戶的每一次行為都是某個方面興趣的一種反應(yīng)。比如我喜歡各種口紅產(chǎn)品、喜歡洗面奶、但是又對某個牌子不是特別感興趣，基于這些興趣的驅(qū)動，我可能瀏覽、點擊過很多相關(guān)領(lǐng)域的內(nèi)容或商品，那這些歷史行為是否對我未來行為的預(yù)測有幫助呢，答案是肯定的。正是基于上述這種主觀的行為模式，我們才需要對用戶的歷史行為進(jìn)行建模，用戶行為隊列越長，包含的用戶興趣也就越豐富，但是同樣也會帶來更大的挑戰(zhàn)，其實用戶的興趣是發(fā)散的多元的，如何從發(fā)散多元的用戶興趣中找到真正對當(dāng)前任務(wù)有幫助的興趣是十分重要的。

在介紹這篇論文之前建議先去看一下阿里的另一篇論文MIMN，也是基于用戶長序列進(jìn)行CTR預(yù)估的論文，但是MIMN存在著幾個問題，一個是因為，當(dāng)用戶行為序列的長度進(jìn)一步增加（例如，增加10倍或比十倍更多）時，MIMN無法精確捕獲給定特定候選項的用戶興趣。另一個是因為，MIMN不能很好的解決延時和存儲這兩個瓶頸上的棘手問題，也就是說部署到線上到時候如何才能做到延時跟其他輕量模型相近。

在淘寶中，用戶的瀏覽序列長度可能達(dá)到上千甚至上萬個，怎么高效且有效的利用這種長序列信息呢？阿里媽媽提出了SIM模型來進(jìn)一步從用戶豐富的長期歷史行為隊列中挖掘用戶有價值的興趣點，并且提供一種長行為序列線上服務(wù)化的可行性方案，接下來就來看看這篇論文吧。

二、模型

模型總覽：

SIM分為兩個階段，這兩個階段都有自己的核心部分，文章中將長序列用戶行為特征的建模分為了兩個模塊，即Genral Search Unit（GSU）和Exact Search Unit（ESU），這兩部分就是兩個階段的核心模塊了。先簡單的介紹下這兩個模塊的作用吧。GSU如圖所示，簡單理解就是從幾百上千的用戶長序列中挑選出TopK個跟候選Item最相似的K個Item，類比與推薦系統(tǒng)中的召回模塊，先降低長序列物品的長度，在進(jìn)行后續(xù)任務(wù)。另一個是ESU，這個模塊的作用是對剛剛GSU抽取出來對K個物品進(jìn)行序列建模，得到一個能代表用戶長序列興趣對向量，并利用這個向量進(jìn)行后面對排序。

2.1 General Search Unit

GSU的主要任務(wù)是從長度為T的序列中抽取出K個跟候選item相似的item，GSU有兩種方式來選取TopK個物品，分別是hard-search 和soft-search。前面也提到了GSU類比于推薦系統(tǒng)中的召回階段，而在多路召回中，一般也有基于Embedding的召回和基于策略規(guī)則的召回，其中hard-search就是基于規(guī)則的召回，soft-search就是基于Embedding的召回，下面來詳細(xì)講一下這兩種方法。

2.1.1 hard-search

這種方法比較直觀而且實施起來比較簡單，就是我們從候選行為序列中按照給定規(guī)則篩選出與當(dāng)前目標(biāo)任務(wù)相關(guān)的候選集，舉個例子，我在淘寶上歷史瀏覽過很不同種類的商品（比如電子產(chǎn)品、口紅、男鞋等等），當(dāng)候選廣告是iphone12時，hard-search方法會從我歷史行為隊列中篩選出電子產(chǎn)品相關(guān)的行為進(jìn)行建模，用于PCTR預(yù)估，而口紅、男鞋大概率就不會對這次預(yù)估產(chǎn)生影響，通過上面這個例子大家應(yīng)該能明白這種基于規(guī)則和策略的思路。論文中指出hard-search方法使用的是商品類別作為篩選的標(biāo)準(zhǔn)。

2.1.2 soft-search

這種方法是基于Embedding的抽取方式，從上面的模型圖的左側(cè)可以看到整個soft-search的結(jié)構(gòu)。這個部分也是一個子模型，模型的輸入是候選Item和長序列，目標(biāo)是CTR預(yù)估，用這種方式來學(xué)習(xí)候選Item和長序列Item的embedding信息。有了Embedding后，就可以將候選廣告embedding和歷史行為中的embedding算一個內(nèi)積相似度，利用近似最近鄰檢索方法（論文中用的是ALSH）來得到topK相關(guān)的候選行為序列。

在這個子model中，DNN的輸入是候選item? $e_{a}$ 和Ur的concat，其中Ur：

注意，如果用戶行為增長到一定程度，則不可能將整個用戶行為直接輸入模型。在這種情況下，可以從長序列用戶行為中隨機(jī)采樣子序列集，這些行為仍需遵循原始序列的相同分布。

這種方法的缺點就是計算開銷比較大，不如基于規(guī)則的hard-search方便，優(yōu)點就是效果應(yīng)該會更好一些。但是論文中也提到了兩種方法在效果上的差異不是特別的大，所以最后基于性能和效果的折中，采用了hard-search這種比較簡單的方式。

2.2 Exact Search Unit

從模型整體上來看，這部分主要是利用從GSU抽取出來的K個Item得到一個能代表用戶長期興趣的向量，并配合其他特征送的DNN里面做整體的CTR預(yù)估任務(wù)。

論文中對這K個來自GSU對item是用self-attention進(jìn)行序列建模的：

其中 $z_$ 為：

concat中第一個是原始的embedding，第二個是關(guān)于時間的embedding。

根據(jù)self-attention的方式，我們又得到了一個向量h(K)。

這里，第二個子model也進(jìn)行了ctr預(yù)估，特征是模型圖上面畫出來 input，還有個dien，dien前面的文章以及介紹過了，就不再贅述。

最后的loss是：

其中α和β是控制損耗權(quán)重的超參數(shù)。在我們的實驗中，如果GSU使用軟搜索模型，則將α和β都設(shè)置為1。具有硬搜索模型的GSU是非參數(shù)的，并且α設(shè)置為0。

三、Online Serving

廣告推薦系統(tǒng)對線上的計算耗時要求還是比較嚴(yán)格的，因為要保證用戶最基本的用戶體驗。隨著用戶行為序列的進(jìn)一步增長，采用傳統(tǒng)的方式直接對長序列用戶行為進(jìn)行計算耗時和內(nèi)存占用會增長的特別快，所以需要有針對性的對線上系統(tǒng)進(jìn)行一定的升級和改造。文章提到在hard-search和soft-search的選擇中，是基于大量的離線實驗結(jié)果最終決定采用hard-search這種方便快捷有效的方式，同時信息損失也在可以接受的范圍內(nèi)。

一般的線上部署的系統(tǒng)架構(gòu)圖是這樣：

為了讓SIM能更好的給用戶帶來低延時的體驗，阿里構(gòu)建了SIM的Online Seving結(jié)構(gòu)：

可以看到對于用戶的行為序列，論文采用的是對每個用戶采用的是兩層索引的結(jié)構(gòu)：key-key-value，第一個key是user_id，第二個key是category ids，value是用戶行為序列中屬于對應(yīng)類別的item。用這種方式可以很快的通過這個索引樹找到屬于統(tǒng)一category的物品。

四、實驗

線上A/B Test實驗效果：

總結(jié)

用戶的歷史行為對于整個CTR/CVR預(yù)估任務(wù)越來越重要了，如果不考慮時間和存儲，那么把所有的序列輸入到模型中作為長期興趣關(guān)鍵點是可以精確的定位出用戶的長期興趣的，但是由于性能的原因就不得不考慮用特殊的方法對這個長序列進(jìn)行一次篩選，篩選的K個物品都是跟候選Item相似的物品，能做到裁剪的效果還不會帶來CTR預(yù)估的損失。在進(jìn)行篩選過程中還分為了兩種方法，但是為了部署到線上，就要考慮性能最好的hard-search方式進(jìn)行TopK篩選任務(wù)，這種方式跟Embedding篩選的效果是差不多的，但是速度比Embedding快，所以采用這種方式。

未來應(yīng)該還會有更多針對序列推薦的論文，單純的對長序列階段還帶來一定的興趣偏差，所以如何有效挖掘用戶更豐富行為特征背后的商業(yè)價值是需要好好思考的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

推薦系統(tǒng)論文閱讀（二十)-阿里媽媽基于用戶長序列歷史行為的推薦SIM

推薦系統(tǒng)論文閱讀（二十)-阿里媽媽基于用戶長序列歷史行為的推薦SIM

一、背景

二、模型

2.1 General Search Unit

2.1.1 hard-search

2.1.2 soft-search

2.2 Exact Search Unit

三、Online Serving

四、實驗

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

推薦系統(tǒng)論文閱讀（二十)-阿里媽媽基于用戶長序列歷史行為的推薦SIM

一 、背景

二、模型

2.1 General Search Unit

2.1.1 hard-search

2.1.2 soft-search

2.2 Exact Search Unit

三、Online Serving

四、實驗

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、背景

二、模型

四、實驗