DRN: A Deep Reinforcement Learning Framework for News Recommendation

Citation: 232 (2021-08-28)

1. Motivation

在新聞推薦系統(tǒng)中，新聞過時速度很快（不然也就不是新聞了:)），而用戶的瀏覽興趣可能也是隨之很快的。因此好的新聞推薦系統(tǒng)可能需要會采用online learning這樣的方法來及時更新用戶、新聞之間的復雜的交互關(guān)系(interactions)。但這樣的方法可能有一個問題，就是只考慮了當前的reward，即時的ctr等指標，不能考慮到長遠的用戶體驗，平臺發(fā)展等因素；從而自然地引入了考慮長期reward的強化學習算法。

DQN (Deep Q-learning)Network提供了深度強化學習的一個很好的示例。

本文的主要貢獻：
（1）基于DQN設(shè)計了一個深度強化學習新聞推薦系統(tǒng)，同時考慮當前reward（ctr）以及長遠reward（user activeness）；
（2）采用一個更有效的exploration method： Dueling Bandit Gradient Descent，基于MAB或者UCB的方法因為是純粹隨機探索，會損害一部分用戶的體驗。
（3）證明了深度強化學習方法在線上有收益。

2. DRN

2.1 Framework

drn.jpg

drn_framework.jpg

整個系統(tǒng)，分成離線部分與在線部分:

離線部分負責先訓練一個DQN。

drn_q_network.jpg

User特征與Context特征用來表示state，User news交叉特征與Context特征用來表示action。

系統(tǒng)主體部分是在線部分。在主體部分，分成minor更新與major更新。

每次有行為日志就進行minor更新；每隔一個相對比較長的時間從保存近期行為日志與reward的memory里采樣樣本，然后進行major更新。

本文考慮的reward由短期reward ctr與長期reward用戶活躍度(user activeness)構(gòu)成。作者設(shè)計了一個計算user activeness的函數(shù)，不贅述了。類似地，如果要考慮長期reward，必須有一個量化指標來計算或者表示該reward。

2.2 Exploration

在探索環(huán)節(jié)，作者指出MAB或者UCB探索部分過于隨機，很可能會隨機到傷害用戶體驗的action上；因此，為了克服這個問題，不能過于隨機，應該有一個更好的探索依據(jù)。作者選擇了Dueling Bandit Gradient Descent方法。

drn_dueling_bandit.jpg

對當前的DQN的參數(shù) $W$ 隨機擾動，

$W' = W + \Delta W = W + \alpha * rand(-1, 1) W$

得到一個新的explore網(wǎng)絡DQN'。

DQN與DQN'各自生成一個候選list L與L'，然后對這兩個list進行概率層面的交叉（interleave），用新得到的L'進行探索。

根據(jù)效果來更新網(wǎng)絡，如果L'有較好的反饋效果，agent將會讓Q向Q'方向更新，否則Q保持不變。

這里相當于在模型的相對局部的變化范圍做explore，效果因此好于漫無目的的隨機探索。

3. Experiment

drn_online_result.jpg

在線實驗顯示本文提出的深度強化學習算法有明顯收益。

優(yōu)點：
（1）能將深度強化學習真正應用到推薦系統(tǒng)，可以考慮長期reward，能考慮一些不可導的目標，也使用了比隨機探索更好的探索方式。

思考：
（1）如果長期reward不可導，實際中怎么確保模型收斂？
（2）保留日志與反饋的檢索系統(tǒng)需要怎么設(shè)計，要保存多久的日志才比較好？

4. References

[1] Zheng, Guanjie, et al. "DRN: A deep reinforcement learning framework for news recommendation." Proceedings of the 2018 World Wide Web Conference. 2018.

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

DRN, WWW18，深度強化學習推薦系統(tǒng)

DRN, WWW18，深度強化學習推薦系統(tǒng)

1. Motivation

2. DRN

2.1 Framework

2.2 Exploration

3. Experiment

4. References

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

DRN, WWW18，深度強化學習推薦系統(tǒng)

1. Motivation

2. DRN

2.1 Framework

2.2 Exploration

3. Experiment

4. References

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av