
論文地址:https://dl.acm.org/doi/10.1145/3298689.3346997
一 為什么讀這篇
看完MMoE后接著看這一篇,進一步加深對MMoE的理解
二 截止閱讀時這篇論文的引用次數(shù)
2020.2.18 9次。從19年9月出來后,不到半年能引用9次,算是相當不錯了
三 相關背景介紹
同樣沒往arXiv上掛,中了19年9月的RecSys。同樣是G家出品,來自YouTube那邊,10個作者中英混合。一作趙哲PHD畢業(yè)于密歇根大學,和MMoE的一作馬家祺一個學校的,本文是趙哲最近在google任research scientist完成的。
四 關鍵詞
multi-task
mmoe
selection bias
五 論文的主要貢獻
1 MMoE模型在YouTube上的應用
2 提出偏置網(wǎng)絡消除訓練數(shù)據(jù)中偏置的影響
六 詳細解讀
0 摘要
本文應用于YouTube的多目標排序系統(tǒng)。主要面對兩個問題,第一個就是存在多個相互競爭的排序目標,第二個就是用戶反饋中隱含了選擇偏見。為了解決這些問題,本文用MMoE優(yōu)化多目標排序,用W&D減輕選擇偏見。
1 介紹
現(xiàn)實世界的大規(guī)模視頻推薦系統(tǒng)存在的挑戰(zhàn),包括:
1 不同的有時甚至相互沖突的優(yōu)化目標。例如除了觀看之外,還希望推薦用戶評價高并與朋友分享的視頻。
2 系統(tǒng)中的隱式偏見。例如用戶點擊并播放一個視頻可能是因為其排序靠前而不是用戶真的最喜歡它。因此使用從當前系統(tǒng)生成的數(shù)據(jù)訓練模型將產生偏差,從而導致反饋循環(huán)效應。
為了解決這些挑戰(zhàn),本文提出的模型如圖1所示。它繼承自Wide & Deep,采用了MMoE進行多任務學習。此外,還引入了一個淺層塔來消除選擇偏差。

具體來說,首先將多個目標分為兩組:1)互動目標,例如點擊,與推薦視頻的參與程度 2)滿意度目標,例如點贊,評分。使用MMoE來學習多目標,混合專家架構將輸入層模塊化為專家,每一個聚焦于輸入的不同方面。這提升了從多種模態(tài)生成的復雜特征空間學習到的表示。接著利用多門網(wǎng)絡,每個目標選擇專家來決定是否與其他專家共享。
為了消除偏差,提出了如圖1左側所示的淺層塔結構,它以與選擇偏差相關的特征作為輸入,例如排序順序。輸出是一個標量,作為主模型最終預測的一個偏置項。
本文主要貢獻如下:
1 引入了一個端到端的排序系統(tǒng)應用于視頻推薦
2 將排序問題定義為多目標學習問題,并從MMoE架構的擴展來提升所有目標
3 提出Wide & Deep模型架構來消除位置偏差
4 在現(xiàn)實世界的大規(guī)模視頻推薦系統(tǒng)上得到了驗證
2 相關工作
2.1 工業(yè)界的推薦系統(tǒng)
工業(yè)推薦系統(tǒng)的主要挑戰(zhàn)是可擴展性。主要依賴隱式反饋。
2.2 推薦系統(tǒng)的多目標學習
舉個例子,一個用故可能點擊了一個item,最終卻不喜歡它。用戶僅僅對點擊過或有交互過的item才能進行評分。
2.3 對訓練數(shù)據(jù)中的偏差的理解和建模
用戶和當前系統(tǒng)會有選擇偏差,例如,一個用戶點擊過一個item只是因為它被當前系統(tǒng)選出來了,即使它不是整個庫中最有用的一個。因此,基于當前系統(tǒng)生成的數(shù)據(jù)來訓練新模型會導致偏向當前系統(tǒng),引起反饋循環(huán)效應。
《Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search》這篇07年的文章最先分析了隱式反饋中的位置偏差和展現(xiàn)偏差。
一個最常用的實踐是在訓練時將位置作為模型的輸入特征,在預測時將其移除。
3 問題定義
除了之前提到的挑戰(zhàn),現(xiàn)實世界的大規(guī)模推薦系統(tǒng)還有如下因素需考慮:
多模特征空間:例如,視頻內容,縮略圖,音頻,標題和摘要,用戶統(tǒng)計學。相比其他機器學習應用,學習從這些多模態(tài)特征空間的表示是推薦系統(tǒng)的獨有挑戰(zhàn)。它解決了兩個困難的問題:1)通過低階內容特征彌合語義鴻溝,以實現(xiàn)內容過濾。2)學習item的稀疏表示用于協(xié)同過濾
可擴展性
3.1 候選生成
采用多種候選生成算法,每一種作為查詢視頻和候選視頻之間相似度的一方面。
3.2 排序
4 模型架構
4.1 系統(tǒng)概覽
排序系統(tǒng)學習兩種類型的用戶反饋:1)交互行為,例如點擊和觀看。2)滿意度行為,例如點贊和退出。將排序問題建模為多目標分類問題和回歸問題的組合。本文采用point-wise的方法,主要是出于性能的考慮,pair-wise和list-wise限制了系統(tǒng)的可擴展性。
4.2 排序目標
為了描述方便,本文將所有目標分為兩類:互動目標和滿意度滿標?;幽繕税c擊和觀看,將點擊定義為二分類任務,將觀看時長定義為回歸任務。類似的,對于滿意度目標,將是否喜歡視頻定義為二分類任務,將打分定義為回歸任務。分類任務用交叉熵損失,回歸任務用平方損失。
對于每個候選,使用加權乘法形式的組合函數(shù)輸出組合分數(shù),這些權重是在考慮最佳用戶互動和用戶滿意度之上手動調節(jié)的。
4.3 使用MMoE來對任務關系和沖突進行建模
MMoE是一種軟參數(shù)共享模型,其核心理念是用MoE層替代共享ReLu層,同時為每個任務增加一個單獨的門網(wǎng)絡。
本文提出增加的專家位于共享隱層之上,如圖2b所示,這是因為MoE層能從輸入中學習到模塊化信息。當直接在輸入層或較低的隱層使用時,可以更好地模擬多模態(tài)特征空間。然而,直接應用MoE層在輸入層將顯著增加模型的訓練和預測成本,這通常是因為輸入層的維度遠高于隱層的維度。

公式這里基本上就照搬MMoE原作的公式了,值得注意的是,與Hilton等人在17年提出的稀疏門控網(wǎng)絡(在該網(wǎng)絡中,專家的數(shù)量可能很多,并且每個訓練樣本僅利用頂級專家)相反,本文使用的專家相對較少。這是因為為了鼓勵通過多個門控網(wǎng)絡來共享專家并提升訓練效率。
4.4 建模并消除位置偏差和選擇偏差
在YouTube的排序系統(tǒng)中,查詢是當前觀看的視頻,候選是相關的視頻,用戶通常會傾向點擊并播放展示位于前列的視頻,而忽略了他們本身真正的偏好,無論是與觀看視頻的相關性還是用戶偏好來說都是這樣。建模并消除選擇偏差可以提升模型質量,并打破選擇偏差帶來的反饋循環(huán)問題。
本文模型采用類似Wide & Deep架構,將模型分為兩個部分,主塔的用戶效用部分和淺層塔的偏差部分。具體來說,用諸如位置特征等偏差特征訓練淺層網(wǎng)絡,之后將其與主模型相加作為最終的logit,如圖3所示。

訓練時,所有曝光位置的都使用,用10%的丟棄率丟棄改特征,以防止模型過度依賴位置特征。在serving時,位置特征被視為缺失。將位置特征與設備特征交叉的原因是,在不同類型的設備上觀察到不同的位置偏差。
5 實驗結果
5.1 實驗設置
對于本文模型和基線模型,訓練都是一直持續(xù)的。離線實驗監(jiān)控的指標是AUC和平方損失。在線實驗做A/B測試,同時考慮serving時的性能開銷。
5.2 使用MMoE的多目標排序
5.2.1 基線方法
如圖2a所示,出于性能考慮,本文的MMoE層共享一個底層隱藏層,而不是直接共享輸入層。
5.2.2 在線實驗結果
如表1所示。

5.2.3 門網(wǎng)絡分布
如圖5所示,繪制了每個任務每個專家在softmax門網(wǎng)絡上的累積概率。可以看到一些互動任務同其他共享任務共享多個專家。而滿意度任務傾向于共享一個小子集上的專家。

另外,本文也驗證了直接在輸入層上使用MMoE,發(fā)現(xiàn)在線實驗結果與圖2b相比并沒有顯著差異。
5.2.4 門網(wǎng)絡穩(wěn)定性
這一節(jié)介紹了MMoE的一個坑,hinton等人在17年的《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》指出softmax門網(wǎng)絡會有不平衡的專家分布問題,即門網(wǎng)絡閉合時專家上的多數(shù)值都為0。本文發(fā)現(xiàn)有20%的幾率會出現(xiàn)這種極化現(xiàn)象。為解決該問題,在門網(wǎng)絡上使用dropout,通過以10%的幾率將專家的利用率設置為0并重新歸一化softmax輸出,本文消除了們門網(wǎng)絡的極化問題。
5.3 建模并消除位置偏差
5.3.1 分析用戶隱式反饋
如圖6所示,位置越前CTR越高。在更前面更高的CTR綜合了item是更相關的以及位置偏差的影響。

5.3.2 基線方法
方法A:直接使用位置特征作為輸入
方法B:對抗學習
5.3.3 在線實驗結果

5.3.4 學習位置偏差

七 小結
本文感覺行文有點啰嗦,許多相同的話在不少地方重復。讀這篇前一定要先讀MMoE的原作,因為這篇基本上就是MMoE的應用,加了個偏置網(wǎng)絡用來消除偏置,如果只有MMoE,這篇文章鐵定發(fā)不出去。另外本文有不少小trick可以借鑒,比如MMoE的專家不能從太底層開始,比如訓練時丟棄10%的偏差特征,比如用設備與位置做特征交叉等等。另外,從實驗上來看,指標的相對提升也沒有特別明顯。
素質四連
要解決什么問題
YouTube排序系統(tǒng)中的多目標問題和訓練數(shù)據(jù)偏置問題
用了什么方法解決
應用MMoE,和偏置網(wǎng)絡分別解決,最后融合在一起
效果如何
只在YouTube自己的數(shù)據(jù)上做了實驗,給出的提升是相對提升,感覺不是很大
還存在什么問題
最后多目標分數(shù)的融合還是根據(jù)經(jīng)驗手調的
算法背后的模式和原理
拿來主義,工程應用論文