日本一二三区黄色,国产91对白刺激,人妻少妇高清无码久久

linUCB

通過上一節(jié)的zhihu鏈接明白了從這開始講ee，以及后面講rl的原因，都是源自這個zhihu專欄：https://zhuanlan.zhihu.com/p/32311522?group_id=928419100960485376

這一節(jié)繼續(xù)講linUCB（Contextual Bandits），其實(shí)思想和UCB差不多（雖然公式和推導(dǎo)復(fù)雜很多），UCB是每一次新的實(shí)驗(yàn)來都選當(dāng)前概率上界最大的那個，獲取or不獲取到reward，然后去更新它的概率上界（概率和delta都更新）；

linUCB也是每一次新的實(shí)驗(yàn)都選概率上界最大的那個，但是這個概率上界的計(jì)算和UCB不同，是用一個預(yù)估概率+相應(yīng)的delta；預(yù)估概率的得到是通過線性模型，特征是菜的葷素、人的年齡等，根據(jù)一些reward先學(xué)習(xí)一波參數(shù)，然后再來一個用戶就可以得到概率和對應(yīng)的delta，于是就得到上界，根據(jù)上界作為概率去ee。

theta即特征系數(shù)，是矩陣得到，theta*x是預(yù)估概率，delta是這個復(fù)雜的根號；根據(jù)最大概率得到要上的菜然后根據(jù)reward更新theta的矩陣。

最后補(bǔ)充一下為什么在UCB的基礎(chǔ)上要弄一個linUCB，是因?yàn)閁CB每次都只是試，沒有去考慮Contextual的信息。

最后的最后再說一下如果Thompson采樣也想用Context的信息要怎么做，如果像UCB一樣得到theta*x是固定的值是不行的，這里Thompson的做法是把每一個theta都做一個多維分布，每次采樣得到一組值去*x作為每個老虎機(jī)的概率；theta的分布是用到了正態(tài)分布&共軛分布啥的：https://zhuanlan.zhihu.com/p/32429623

最后編輯于：2021.11.09 00:01:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

linUCB

linUCB

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

linUCB

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av