1.DRl

1. DRL-1

1.DeppMind(openai) Policy Gradient

  • 基本的組件:Actor Env Reward Function。
    除了Actor可以自己控制外,其他的都不可以優(yōu)化處理。
  • Policy of Actor (Policy=神經(jīng)網(wǎng)絡(luò))
  • 動(dòng)作、環(huán)境、獎(jiǎng)勵(lì)的關(guān)系


    image.png

    這樣形成了一個(gè)軌跡,和軌跡參數(shù)對(duì)應(yīng)的出現(xiàn)幾率。
    在不同環(huán)境做不同的動(dòng)作會(huì)有不同的獎(jiǎng)勵(lì)。


    image.png

我們希望得到獎(jiǎng)勵(lì)的期望值。方式是:窮舉不同的運(yùn)動(dòng)軌跡得到出現(xiàn)的概率和對(duì)應(yīng)的獎(jiǎng)勵(lì),然后求平均。

  • Policy Grdient

![image.png](https://upload-images.jianshu.io/upload_images/11875530-52dc9c37 * 576e9968.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

我們比較在意與動(dòng)作用關(guān)的項(xiàng)。

image.png

一個(gè)參數(shù)theta對(duì)應(yīng)很多tao,每一個(gè)tao對(duì)應(yīng)的過程,
p_(theta)(atn|stn)是對(duì)每一個(gè)軌跡的每一個(gè)時(shí)刻的狀態(tài)和動(dòng)作求概率,并求log,然后求導(dǎo)。最后乘以改組參數(shù)的的獎(jiǎng)勵(lì),在把所有的軌跡求平均。

2. DRL-2

  • on-Policy off-policy的區(qū)別
    自己參與學(xué)習(xí)過程,on-policy,通過觀察學(xué)習(xí),off-policy

1.off-policy

  • importance sampling

3.Critic

image.png

1.Monte-Carlo(MC) based

image.png

2. Temporal-difference(TD) approach

中間值差分?


image.png
  • 兩者的差距

蒙特卡羅方法,得到較大的方差。因?yàn)椋瑥念^做到最后的中間過程太多了。差分方法是具有較小的方差。


image.png
  • another critic
    Qpi(s,a)在s狀態(tài)強(qiáng)制使用動(dòng)作a。
image.png

只針對(duì)離散的動(dòng)作有效。

  • Q-learing


    image.png

    已經(jīng)學(xué)到pi,在某個(gè)s,代入a,然后求出最大的Q,就可以得到pi,狀態(tài)s對(duì)應(yīng)的a。pi 至于Q有關(guān)。
    pi'方程
    ** 動(dòng)作不要是連續(xù)的值。
    為什么得到的就比較好呢?

  • 參考
  1. https://www.youtube.com/watch?v=z95ZYgPgXOY
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容