新聞推薦(9):Knowledge-Aware Document Representation for News Recommendations

前言

  • Recsys 2020中一篇關(guān)于新聞推薦的長文
  • 官方代碼: https://github.com/danyang-liu/KRED
  • 來自微軟亞研和中科大的合作
  • 關(guān)鍵問題/背景:
    • 新聞內(nèi)容中包含有實體,是重要的輔助信息
    • 工業(yè)新聞推薦系統(tǒng)包含各種關(guān)鍵應(yīng)用,如個性化推薦、逐條推薦、新聞分類、新聞流行度預(yù)測和本地新聞檢測。
    • 通過合并實體能更好地表征文檔/新聞,統(tǒng)一構(gòu)建這些應(yīng)用(多任務(wù)學(xué)習(xí))。
    • 然而,現(xiàn)有的文檔表征模型要么在不考慮實體的情況下表示新聞文章,要么依賴于特定類型的文本編碼模型(如 DKN) ,從而降低了文檔表征的泛化能力和效率。
  • 主要工作:
    • 利用KGAT模型利用文章內(nèi)的實體信息
    • 構(gòu)建多任務(wù)訓(xùn)練框架,將推薦與其他多個相關(guān)任務(wù)協(xié)同訓(xùn)練

模型

1. 知識圖譜利用

包括兩部分:實體表征+上下文嵌入:

對于一篇新聞,取其標(biāo)題及正文內(nèi)的實體,每個實體都通過KGAT進(jìn)行近鄰聚合(知識圖譜預(yù)先通過TransE訓(xùn)練得到實體和關(guān)系嵌入)

KGAT對實體進(jìn)行聚合的原理如下:

在得到聚合后的實體表征后,進(jìn)行上下文信息的利用;文中將實體的頻率信息(實體出現(xiàn)的頻率,分段為20類)、位置信息(標(biāo)題還是正文)與類別信息(實體類別比較多:公司/人物/等等)利用嵌入編碼,加到實體嵌入中:

2. 特征提取(Information Distillation)

一個實體的最終重要性不僅取決于其自身的信息,而且還受到文章和文章主題中共同出現(xiàn)的其他實體的影響。

例如,假設(shè)有兩篇與 a 市相關(guān)的新聞報道。第一篇文章報道了一位著名的音樂明星將在 a 市舉辦音樂會,第二篇文章報道了 a 市發(fā)生的強(qiáng)烈地震。顯然,前一篇文章的關(guān)鍵實體是名人,而后一篇文章的關(guān)鍵實體是地點。文中使用了一種簡單的注意機(jī)制,將一篇新聞所有實體的信息合并到一個輸出向量中。如下所示:實體嵌入逐一和新聞向量做計算,然后softmax加和:


最后將注意力聚合得到的向量和新聞原始的特征表示進(jìn)行組合

新聞原始表征v_d可以使用Bert/LDA等模型構(gòu)建。

3. 多任務(wù)學(xué)習(xí)

前面提到了多種預(yù)測任務(wù):新聞推薦、i2i推薦、新聞流行度預(yù)測、新聞分類預(yù)測、本地新聞預(yù)測(分類)
采用共享參數(shù)的形式進(jìn)行,僅針對不同的任務(wù)設(shè)計不同的預(yù)測器:

  • user2item推薦

    注:其中的用戶向量是使用注意力聚合將用戶看過的新聞向量進(jìn)行加和得到的

  • item2item推薦:新聞向量的余弦相似度
  • 其他任務(wù):

最后模型的優(yōu)化目標(biāo)也是pairwise形式的:

不同任務(wù)的Loss如下:

為了避免在結(jié)合不同任務(wù)的損失時引入新的超參數(shù),文中使用了兩階訓(xùn)練方法來進(jìn)行多任務(wù)學(xué)習(xí):

  • 第一階段:每個batch交替訓(xùn)練不同的任務(wù)
  • 第二階段:選取目標(biāo)任務(wù)的數(shù)據(jù)來得到具體的模型(u2i推薦)

實驗

MSN數(shù)據(jù)集上進(jìn)行的實驗(開源數(shù)據(jù)集:MIND,但上面缺少關(guān)鍵的知識圖譜三元組信息)

文中還對嵌入效果進(jìn)行了可視化,可以看到對于不同類別的文章,KRED的效果分布更加清晰

案例研究:KRED的實體重要度分配:

總結(jié)

本文提出的KRED著眼點在于新聞的表征上,利用KGAT聚合新聞實體信息,并且整合了其他上下文信息;此外利用多任務(wù)學(xué)習(xí)的思想進(jìn)一步提高了模型效果。但在用戶建模上沒有新的思路,可以考慮跟上一篇文章結(jié)合一下,更好把知識圖譜應(yīng)用起來。

END

本人簡書所有文章均為原創(chuàng),歡迎轉(zhuǎn)載,請注明文章出處 。百度和CSDN等站皆不可信,搜索請謹(jǐn)慎鑒別。技術(shù)類文章一般都有時效性,本人習(xí)慣不定期對自己的筆記/博文進(jìn)行更新,因此請訪問本人簡書主頁查看最新信息http://www.itdecent.cn/u/40d14973d97c

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容