推薦系統(tǒng)陳開江 - C7 探索和利用

1 MAB問題和Bandit算法

  • Bandit算法定義
    最大化收益
    解決冷啟動和EE問題
    最小化累積遺憾,把選擇的機會給那些確定好的和還不確定的選項
  • Bandit算法實現(xiàn)
    湯普森采樣:使用B分布,α和β,點擊了α+1,沒點擊β+1,對于每個臂根據(jù)概率分布產(chǎn)生隨機數(shù),選擇隨機數(shù)最大的那個
    UCB算法:使用置信空間上界,預(yù)估期望和預(yù)估收益的置信區(qū)間寬度,每次給分最高的,對選擇次數(shù)不足的臂給予照顧,傾向于那些確定收益好的
    Epsilon貪心算法
  • 冷啟動
    用分類或者topic表示用戶的興趣,對每個新用戶,用湯普森采樣為每個類采樣一個隨機數(shù),排序后輸出TopK個視頻,根據(jù)點擊和不點擊更新對應(yīng)的Topic的參數(shù)

2 UCB算法

加入特征的UCB算法LinUCB,收斂快,臂的獨立參數(shù),動態(tài)處理

3 Bandit算法和協(xié)同過濾

解決信息繭房的問題
抱團取暖+走一步看一步

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容