[論文閱讀]Adapting multi-armed bandits policies to contextual bandits scenarios

論文連接?https://arxiv.org/abs/1811.04383

本篇論文使用二分類算法,為在線場(chǎng)景(contextual bandits)探索了多臂賭博機(jī)(multi-armed bandits)的變種形式,主要涉及重復(fù)采樣(bootstrapping)和隨機(jī)算法。其中,自適應(yīng)貪心算法(Adaptive-Greedy algorithm)是作者認(rèn)為最好的一種方式。

對(duì)multi-armed bandits不了解的同學(xué)可以參考https://zhuanlan.zhihu.com/p/80261581,里面有很詳細(xì)的解釋。

一、問(wèn)題描述

對(duì)于K個(gè)賭博機(jī)(每個(gè)賭博機(jī)的收益均服從Bernoulli分布),在每輪開(kāi)始的時(shí)候,系統(tǒng)都會(huì)將一組協(xié)變量(covariates)xt作為先驗(yàn)知識(shí)告訴張三。經(jīng)過(guò)N+1輪后,張三需要根據(jù)先驗(yàn)知識(shí)[前N輪每輪的協(xié)變量、每輪的選項(xiàng)、每輪的收益]從賭博機(jī)中選擇一個(gè)收益最大的一個(gè)。

二、相關(guān)研究

對(duì)于多臂賭博機(jī)解決方案主要是upper confidence bounds 和?Thompson sampling。前者通過(guò)每個(gè)賭博機(jī)回報(bào)的最好預(yù)期進(jìn)行選擇,后者則通過(guò)Beta分布對(duì)每個(gè)賭博機(jī)的收益進(jìn)行模擬。此外還有類似以概率P選擇實(shí)際表現(xiàn)最優(yōu)的賭博機(jī),以概率1-P隨機(jī)選擇的Epsilon-Greedy。在時(shí)間有限的情況下,還存在最初隨機(jī)進(jìn)行選擇,在最后選擇實(shí)際表現(xiàn)最好的Explore-Then-Exploit算法。LINUCB算法對(duì)于每個(gè)賭博機(jī)使用一個(gè)線性函數(shù)估計(jì)其期望收益的上限(詳見(jiàn)知乎專欄)

三、UCB算法

UCB算法的不足在于需要訪問(wèn)整個(gè)數(shù)據(jù)集。在線數(shù)據(jù)中,每次數(shù)據(jù)都是以流(stream)或者batch的形式存在。針對(duì)這個(gè)問(wèn)題,一種在實(shí)際中表現(xiàn)較好的方式,是先對(duì)每個(gè)樣本分配一個(gè)Gamma(1,1)的權(quán)重,再傳入分類器。另外,也可以采用決策樹(shù)或隨機(jī)森林對(duì)數(shù)據(jù)進(jìn)行擬合,則終端節(jié)點(diǎn)可認(rèn)為是數(shù)據(jù)的期望上界。

四、冷啟動(dòng)問(wèn)題

在線場(chǎng)景中另一個(gè)問(wèn)題在于相較于協(xié)方差(比如用戶點(diǎn)擊的次數(shù))的大小,賭博機(jī)的回報(bào)率(比如用戶點(diǎn)入推薦商品)幾乎為零。通常,我們使用合并先驗(yàn)(incorporating a prior)或平滑的方式解決問(wèn)題。Rsmooth=(nR + a)/(n + b)。其中R是估計(jì)的回報(bào)率,a和b是平滑的常數(shù)。但如果賭博機(jī)數(shù)量提升的話,上述方案會(huì)使得每個(gè)賭博機(jī)直到都被采集相當(dāng)次數(shù)之前,都處于較低的回報(bào)率。另外一種方式使通過(guò)使用Beta先驗(yàn)并忽略協(xié)變量,直到對(duì)于每個(gè)標(biāo)簽取得一定的觀測(cè)數(shù)量后再重新使用協(xié)變量。

使用Beta先驗(yàn)和平滑策略

還有一種方式是通過(guò)在冷啟動(dòng)時(shí),選取賭博機(jī)的一個(gè)子集,從中進(jìn)行隨機(jī)采樣。隨時(shí)間,逐步增加子集中賭博機(jī)的數(shù)量。但這種方法很難確定最優(yōu)的子集數(shù)量。

五、基線比較算法

一些常用的Bandit算法可參考上文提及的知乎專欄。較新穎的方法是采用SoftmaxExplorer。通過(guò)各賭博機(jī)所占的概率比例進(jìn)行選擇。fi(x)的輸出為0-1的概率值,因此先使用反Sigmoid轉(zhuǎn)化為實(shí)數(shù)值,通過(guò)softmax重新轉(zhuǎn)化為概率,從而避免輸出概率過(guò)小的問(wèn)題。為了讓該算法長(zhǎng)期收斂于最佳策略,每輪都會(huì)成以當(dāng)前論述值,從而放大賭博機(jī)收益之間的差距。

softmaxExplorer算法

Epsilon-Greedy算法以一定概率1-p選擇當(dāng)前收益最大的賭博機(jī),以概率p從任意賭博機(jī)中隨機(jī)選擇一個(gè)。隨著round的增加,隨機(jī)選擇的概率越來(lái)越低。

Epsilon-Greedy算法

Epsilon-Greedy算法可以很容易改成啟發(fā)式的學(xué)習(xí)方法。例如在ActiveExplorer算法中使用神經(jīng)網(wǎng)絡(luò)替換uniform采樣。[上述算法可參考https://github.com/david-cortes/contextualbandits]

ActiveExplorer算法

其中表現(xiàn)最好的算法是ContextualAdaptiveGreedy,這類算法運(yùn)行速度也較快。但需注意再結(jié)合啟發(fā)式算法的增強(qiáng)手段無(wú)法對(duì)此類算法有明顯提升。

Winner Algorithm
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • MAB問(wèn)題 Wiki定義 地址:Multi-armed bandit - A Problem in which ...
    半山來(lái)客閱讀 21,207評(píng)論 0 9
  • 0. 導(dǎo)語(yǔ) 推薦系統(tǒng)里面有兩個(gè)經(jīng)典問(wèn)題:EE 問(wèn)題和冷啟動(dòng)問(wèn)題。前者涉及到平衡準(zhǔn)確和多樣,后者涉及到產(chǎn)品算法運(yùn)營(yíng)等...
    Liam_ml閱讀 1,852評(píng)論 0 4
  • 一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,683評(píng)論 0 25
  • 01 有多久沒(méi)有放下手中忙碌的工作,去感受自然的美了呢?趁著周末好時(shí)光,來(lái)到深圳華僑城洲際酒...
    星伢閱讀 250評(píng)論 0 0
  • 你走我不送你,你來(lái),多大風(fēng)多大雨我要去接你。 還記得初遇的那個(gè)盛夏?是你讓我明白,真的有一見(jiàn)鐘情的存在。我也深深地...
    元妖閱讀 1,637評(píng)論 1 2

友情鏈接更多精彩內(nèi)容