1 MAB問題和Bandit算法
- Bandit算法定義
最大化收益
解決冷啟動和EE問題
最小化累積遺憾,把選擇的機會給那些確定好的和還不確定的選項 - Bandit算法實現(xiàn)
湯普森采樣:使用B分布,α和β,點擊了α+1,沒點擊β+1,對于每個臂根據(jù)概率分布產(chǎn)生隨機數(shù),選擇隨機數(shù)最大的那個
UCB算法:使用置信空間上界,預(yù)估期望和預(yù)估收益的置信區(qū)間寬度,每次給分最高的,對選擇次數(shù)不足的臂給予照顧,傾向于那些確定收益好的
Epsilon貪心算法 - 冷啟動
用分類或者topic表示用戶的興趣,對每個新用戶,用湯普森采樣為每個類采樣一個隨機數(shù),排序后輸出TopK個視頻,根據(jù)點擊和不點擊更新對應(yīng)的Topic的參數(shù)
2 UCB算法
加入特征的UCB算法LinUCB,收斂快,臂的獨立參數(shù),動態(tài)處理
3 Bandit算法和協(xié)同過濾
解決信息繭房的問題
抱團取暖+走一步看一步