linUCB

通過上一節(jié)的zhihu鏈接明白了從這開始講ee,以及后面講rl的原因,都是源自這個zhihu專欄:https://zhuanlan.zhihu.com/p/32311522?group_id=928419100960485376

這一節(jié)繼續(xù)講linUCB(Contextual Bandits),其實(shí)思想和UCB差不多(雖然公式和推導(dǎo)復(fù)雜很多),UCB是每一次新的實(shí)驗(yàn)來都選當(dāng)前概率上界最大的那個,獲取or不獲取到reward,然后去更新它的概率上界(概率和delta都更新);

linUCB也是每一次新的實(shí)驗(yàn)都選概率上界最大的那個,但是這個概率上界的計(jì)算和UCB不同,是用一個預(yù)估概率+相應(yīng)的delta;預(yù)估概率的得到是通過線性模型,特征是菜的葷素、人的年齡等,根據(jù)一些reward先學(xué)習(xí)一波參數(shù),然后再來一個用戶就可以得到概率和對應(yīng)的delta,于是就得到上界,根據(jù)上界作為概率去ee。

theta即特征系數(shù),是矩陣得到,theta*x是預(yù)估概率,delta是這個復(fù)雜的根號;根據(jù)最大概率得到要上的菜然后根據(jù)reward更新theta的矩陣。

最后補(bǔ)充一下為什么在UCB的基礎(chǔ)上要弄一個linUCB,是因?yàn)閁CB每次都只是試,沒有去考慮Contextual的信息。

最后的最后再說一下如果Thompson采樣也想用Context的信息要怎么做,如果像UCB一樣得到theta*x是固定的值是不行的,這里Thompson的做法是把每一個theta都做一個多維分布,每次采樣得到一組值去*x作為每個老虎機(jī)的概率;theta的分布是用到了正態(tài)分布&共軛分布啥的:https://zhuanlan.zhihu.com/p/32429623

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容