新聞推薦(3): 基于用戶長短期表示的新聞推薦: Neural News Recommendation with Long- and Short-term User Representations

本文是自己在推薦系統(tǒng)研究中研讀的論文翻譯及解讀,原文:Neural News Recommendation with Long- and Short-term User Representations

  • ACL2019會議論文,微軟亞研團隊出品
  • 本篇筆記為本人原創(chuàng),如需轉載引用,請務必在文中附上原鏈接及相應說明,包括作者信息(阿瑟)
  • 本篇筆記非標準譯文,其中包含了筆者自己對問題的部分理解,僅供參考,歡迎學習交流

摘要

個性化新聞推薦對于幫助用戶發(fā)現(xiàn)感興趣的新聞,提高閱讀體驗具有重要意義。新聞推薦中的一個關鍵問題是學習準確的用戶表征以獲取他們的興趣。用戶通常有長期偏好和短期興趣。然而,現(xiàn)有的新聞推薦方法通常只學習用戶的單一表示,這可能是不夠的。

本文提出了一種能同時學習長期和短期用戶表示的神經(jīng)新聞推薦方法。
方法的核心是新聞編碼器和用戶編碼器。

  • 在新聞編碼器中,我們從新聞的標題和主題類別中學習新聞的表示,并使用注意力網(wǎng)絡來選擇重要的詞。
  • 在用戶編碼器中,從用戶id的嵌入中學習長期的用戶表示。
  • 通過GRU網(wǎng)絡從用戶最近瀏覽的新聞中學習短期用戶表示。
  • 提出了兩種方法來結合長期和短期的用戶表示。第一種是在短期用戶表示中,利用長期用戶表示來初始化GRU網(wǎng)絡的隱藏狀態(tài)。第二種是將長期和短期用戶表示連接起來作為統(tǒng)一的用戶向量。
  • 在實際數(shù)據(jù)集上的大量實驗表明,該方法能夠有效地提高神經(jīng)新聞推薦的性能。

引言

在線新聞平臺匯集各種來源的新聞并推薦給用戶,用戶群體龐大。然而,每天都會產(chǎn)生大量的新聞,使得用戶無法閱讀所有的新聞。因此,個性化的新聞推薦對于在線新聞平臺幫助用戶找到感興趣的內(nèi)容,緩解信息過載非常重要。

學習準確的用戶表示對于新聞推薦至關重要?,F(xiàn)有的新聞推薦方法通常為每個用戶學習一個表示,如有工作提出使用去噪自動編碼器學習新聞的表示,并使用GRU網(wǎng)絡從用戶瀏覽的新聞中學習用戶的表示。然而,像GRU這樣的RNN網(wǎng)絡很難捕捉到非常長的新聞瀏覽歷史的全部信息。有工作提出使用knowledge-aware的CNN學習新聞的表征,并基于候選新聞和瀏覽新聞的相似性從用戶瀏覽的新聞中學習用戶的表征。然而,這種方法需要在在線新聞推薦階段存儲每個用戶的整個瀏覽歷史,這可能會給存儲帶來巨大的挑戰(zhàn),并可能造成較大的延遲。

本文的工作是基于這樣一種觀察:即網(wǎng)絡用戶對新聞的興趣是非常多樣化的。一些用戶興趣可能會持續(xù)很長一段時間,并且對于同一個用戶來說是一致的。例如,如果用戶是“金州勇士”的粉絲,則該用戶可能傾向于在數(shù)年內(nèi)閱讀有關該NBA球隊的許多籃球新聞。我們稱這種用戶偏好為長期興趣。此外,許多用戶興趣可能隨著時間的推移而變化,并可能由特定的上下文或時間需求觸發(fā)。例如,瀏覽電影“波希米亞狂想曲”上的新聞會導致用戶閱讀一些相關新聞,例如“Rami Malek贏得2019年奧斯卡獎”,因為“Rami Malek”是該電影中的重要演員,盡管該用戶可能永遠不會閱讀有關“Rami Malek”的新聞。我們稱這種用戶興趣為短期興趣。因此,長期和短期用戶興趣對于個性化新聞推薦都很重要,區(qū)分長期和短期用戶興趣有助于學習更準確的用戶表示。

模型設計

News Encoder

主要結構包括:

  • Embedding層,利用預訓練的詞向量模型獲取新聞標題每個詞匯對應的embedding
  • CNN文本特征提取層, 對詞embedding進行特征提取,類似于KimCNN的操作,卷積窗口為3,圖中也做了相應的表示
  • Attention層,對詞匯特征做soft-attention得到新聞標題的文本特征
  • 主題編碼器 Topic encoder 從新聞主題和子主題學習新聞表示。在MSN news等許多在線新聞平臺上,新聞文章通常標有主題類別(如“體育”)和副標題類別(如“足球NFL”),以幫助目標用戶興趣。
  • 新聞的主題和副標題類別對于學習新聞和用戶的表現(xiàn)形式也是有影響的。它們可以揭示新聞的一般和詳細主題,并反映用戶的偏好。例如,如果用戶瀏覽了許多帶有“體育”主題類別的新聞文章,那么我們可以推斷出該用戶可能對體育感興趣,并且向該用戶推薦“體育”主題類別中的候選新聞可能是有效的。
  • 為了將主題和副標題信息合并到新聞表示中,本文提出從主題和副標題id的嵌入中學習主題和副標題的表示。

定義e_ve_{sv}作為主題和副標題的表示。新聞的最終表現(xiàn)是標題、主題和副標題的串聯(lián),即e=[e_t,e_v,e_sv]。

筆者注:新聞編碼部分總體看來平平無奇,常規(guī)操作,包括主題副標題使用的部分,也很簡單

User Encoder

  • 用戶短期表征 Short-Term User representation
    在線用戶在閱讀新聞文章時可能會有動態(tài)的短期互動,這可能會受到特定語境或時態(tài)信息需求的影響。

例如,如果一個用戶只是閱讀了一篇關于“Mission: Impossible 6 – Fallout”的新聞文章,她可能想更多地了解這部電影中的演員“湯姆克魯斯”,并點擊與“湯姆克魯斯”相關的新聞,盡管她不是他的粉絲,可能以前從未讀過他的新聞。

本文提出從用戶最近的瀏覽歷史中學習用戶的短期表示以捕捉他們的時間興趣,并使用GRU來限定順序新聞閱讀模式。表示按時間戳按升序排序的用戶的新聞瀏覽序列為C={c_1,c_2,…,c_k},其中k是此序列的長度。我們應用新聞編碼器來獲得這些新聞的表示,表示形式為{e_1,e_2,...,e_k}。

最終用gru網(wǎng)絡的隱藏狀態(tài)來表示短期表征
u_s=h_k

  • 用戶長期標準 Long-Term User representation
    除了暫時的興趣,網(wǎng)絡用戶也可能對閱讀新聞有長期的興趣。

例如,一個籃球迷可能傾向于在幾年內(nèi)瀏覽許多與NBA有關的體育新聞。因此,本文提出學習用戶的長期特征,以獲取他們一致的偏好。長期的用戶描述是從用戶ID的嵌入中學習的,這些用戶ID在模型訓練期間是隨機初始化和微調(diào)的。表示u為用戶的ID,W_u為用戶長期表征的查找表look-up table,該用戶的長期表示為u_l=W_u[u]。

這個長期表征很讓人迷惑,直接用用戶ID真的能讓模型學到用戶的長期特征么,因為模型并沒有真正用到歷史較遠的新聞數(shù)據(jù)


文中提出了兩種的具體表征結合方法:

  1. 將用戶長期興趣表示作為用戶短期用戶表示計算中GRU的初始狀態(tài)(LSTUR-ini)
  2. 將用戶長短期興趣表示拼接作為最終用戶表示(LSTUR-con)。

候選新聞的個性化分數(shù)通過用戶表示向量和新聞表示向量的內(nèi)積計算,作為眾多候選新聞針對特定用戶個性化排序的依據(jù)。
注: 第一種結合方法稍有創(chuàng)新,總體仍然平平無奇

訓練過程基于負采樣進行,對于一個用戶瀏覽的每一條新聞(作為正例),隨機抽取來自同一頁面的K篇新聞文章,這些文章沒有被這個用戶點擊作為負例子。我們的模型將聯(lián)合預測正負樣本的點擊概率得分。這樣,新聞點擊預測問題被重新定義為一個K+1類 分類任務。我們將訓練期間所有陽性樣本的負對數(shù)似然之和最小化,其公式如下:

由于并非所有的用戶都能被納入到新聞推薦模型的訓練中(例如,新來的用戶),因此在預測階段假設所有用戶在我們的模型中都有長期表征是不合適的。

無法學習新到來用戶的長期興趣的表示向量。在預測的過程中簡單地將新用戶的長期興趣表示置為零向量可能無法取得最優(yōu)的效果。為了解決這個問題,該論文提出在模型訓練的過程中模擬新用戶存在的情況,具體做法是隨機掩蓋(mask)部分用戶的長期興趣表示向量,即用戶的長期興趣表示向量會以概率p被置為全零向量。實驗表明,無論是LSTUR-ini還是LSTUR-con,在訓練過程中加入長期興趣隨機掩蓋(random mask)的做法均能明顯提升模型效果。

,按照伯努利分布進行隨機mask
這種設計方法在實際模型訓練中很有幫助

實驗

由于沒有現(xiàn)成的新聞記錄數(shù)據(jù)集,論文在2018年12月23日至2019年1月19日的4周內(nèi),通過收集MSN News的日志,自行構建了一個。把前三周的日志用于模型訓練,上一周的日志用于測試;還隨機抽取了訓練集中10%的日志作為驗證數(shù)據(jù)。對于每個用戶,收集了過去7天的瀏覽歷史,以了解短期用戶表示

具體的實驗參數(shù)設置包括,使用Glove獲取詞向量,mask的概率為0.5;超參數(shù)在的驗證集上訓練得到。

對比實驗效果如下:

總結

該文總體而言相對比較流暢,但創(chuàng)新性一般,有一些小的track,總體平淡無奇。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容