通過上一節(jié)的zhihu鏈接明白了從這開始講ee,以及后面講rl的原因,都是源自這個zhihu專欄:https://zhuanlan.zhihu.com/p/32311522?group_id=928419100960485376
這一節(jié)繼續(xù)講linUCB(Contextual Bandits),其實(shí)思想和UCB差不多(雖然公式和推導(dǎo)復(fù)雜很多),UCB是每一次新的實(shí)驗(yàn)來都選當(dāng)前概率上界最大的那個,獲取or不獲取到reward,然后去更新它的概率上界(概率和delta都更新);
linUCB也是每一次新的實(shí)驗(yàn)都選概率上界最大的那個,但是這個概率上界的計(jì)算和UCB不同,是用一個預(yù)估概率+相應(yīng)的delta;預(yù)估概率的得到是通過線性模型,特征是菜的葷素、人的年齡等,根據(jù)一些reward先學(xué)習(xí)一波參數(shù),然后再來一個用戶就可以得到概率和對應(yīng)的delta,于是就得到上界,根據(jù)上界作為概率去ee。

theta即特征系數(shù),是矩陣得到,theta*x是預(yù)估概率,delta是這個復(fù)雜的根號;根據(jù)最大概率得到要上的菜然后根據(jù)reward更新theta的矩陣。
最后補(bǔ)充一下為什么在UCB的基礎(chǔ)上要弄一個linUCB,是因?yàn)閁CB每次都只是試,沒有去考慮Contextual的信息。
最后的最后再說一下如果Thompson采樣也想用Context的信息要怎么做,如果像UCB一樣得到theta*x是固定的值是不行的,這里Thompson的做法是把每一個theta都做一個多維分布,每次采樣得到一組值去*x作為每個老虎機(jī)的概率;theta的分布是用到了正態(tài)分布&共軛分布啥的:https://zhuanlan.zhihu.com/p/32429623