DRN, WWW18,深度強化學習推薦系統(tǒng)

DRN: A Deep Reinforcement Learning Framework for News Recommendation

Citation: 232 (2021-08-28)

1. Motivation

在新聞推薦系統(tǒng)中,新聞過時速度很快(不然也就不是新聞了:)),而用戶的瀏覽興趣可能也是隨之很快的。因此好的新聞推薦系統(tǒng)可能需要會采用online learning這樣的方法來及時更新用戶、新聞之間的復雜的交互關(guān)系(interactions)。但這樣的方法可能有一個問題,就是只考慮了當前的reward,即時的ctr等指標,不能考慮到長遠的用戶體驗,平臺發(fā)展等因素;從而自然地引入了考慮長期reward的強化學習算法。

DQN (Deep Q-learning)Network提供了深度強化學習的一個很好的示例。

本文的主要貢獻:
(1)基于DQN設(shè)計了一個深度強化學習新聞推薦系統(tǒng),同時考慮當前reward(ctr)以及長遠reward(user activeness);
(2)采用一個更有效的exploration method: Dueling Bandit Gradient Descent,基于MAB或者UCB的方法因為是純粹隨機探索,會損害一部分用戶的體驗。
(3)證明了深度強化學習方法在線上有收益。

2. DRN

2.1 Framework

drn.jpg
drn_framework.jpg

整個系統(tǒng),分成離線部分與在線部分:

離線部分負責先訓練一個DQN。

drn_q_network.jpg

User特征與Context特征用來表示state,User news交叉特征與Context特征用來表示action。

系統(tǒng)主體部分是在線部分。在主體部分,分成minor更新與major更新。

每次有行為日志就進行minor更新;每隔一個相對比較長的時間從保存近期行為日志與reward的memory里采樣樣本,然后進行major更新。

本文考慮的reward由短期reward ctr與長期reward用戶活躍度(user activeness)構(gòu)成。作者設(shè)計了一個計算user activeness的函數(shù),不贅述了。類似地,如果要考慮長期reward,必須有一個量化指標來計算或者表示該reward。

2.2 Exploration

在探索環(huán)節(jié),作者指出MAB或者UCB探索部分過于隨機,很可能會隨機到傷害用戶體驗的action上;因此,為了克服這個問題,不能過于隨機,應該有一個更好的探索依據(jù)。作者選擇了Dueling Bandit Gradient Descent方法。

drn_dueling_bandit.jpg

對當前的DQN的參數(shù)W隨機擾動,

W' = W + \Delta W = W + \alpha * rand(-1, 1) W

得到一個新的explore網(wǎng)絡DQN'。

DQN與DQN'各自生成一個候選list L與L',然后對這兩個list進行概率層面的交叉(interleave),用新得到的L'進行探索。

根據(jù)效果來更新網(wǎng)絡,如果L'有較好的反饋效果,agent將會讓Q向Q'方向更新,否則Q保持不變。

這里相當于在模型的相對局部的變化范圍做explore,效果因此好于漫無目的的隨機探索。

3. Experiment

drn_online_result.jpg

在線實驗顯示本文提出的深度強化學習算法有明顯收益。

優(yōu)點:
(1)能將深度強化學習真正應用到推薦系統(tǒng),可以考慮長期reward,能考慮一些不可導的目標,也使用了比隨機探索更好的探索方式。

思考:
(1)如果長期reward不可導,實際中怎么確保模型收斂?
(2)保留日志與反饋的檢索系統(tǒng)需要怎么設(shè)計,要保存多久的日志才比較好?

4. References

[1] Zheng, Guanjie, et al. "DRN: A deep reinforcement learning framework for news recommendation." Proceedings of the 2018 World Wide Web Conference. 2018.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容