1. DRL-1

1.DeppMind（openai） Policy Gradient

基本的組件：Actor Env Reward Function。
除了Actor可以自己控制外，其他的都不可以優(yōu)化處理。
Policy of Actor (Policy=神經(jīng)網(wǎng)絡(luò))
動(dòng)作、環(huán)境、獎(jiǎng)勵(lì)的關(guān)系

image.png

這樣形成了一個(gè)軌跡，和軌跡參數(shù)對(duì)應(yīng)的出現(xiàn)幾率。
在不同環(huán)境做不同的動(dòng)作會(huì)有不同的獎(jiǎng)勵(lì)。

image.png

我們希望得到獎(jiǎng)勵(lì)的期望值。方式是：窮舉不同的運(yùn)動(dòng)軌跡得到出現(xiàn)的概率和對(duì)應(yīng)的獎(jiǎng)勵(lì)，然后求平均。

Policy Grdient

![image.png](https://upload-images.jianshu.io/upload_images/11875530-52dc9c37 * 576e9968.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

我們比較在意與動(dòng)作用關(guān)的項(xiàng)。

image.png

一個(gè)參數(shù)theta對(duì)應(yīng)很多tao，每一個(gè)tao對(duì)應(yīng)的過程，
p_(theta)(atn|stn)是對(duì)每一個(gè)軌跡的每一個(gè)時(shí)刻的狀態(tài)和動(dòng)作求概率，并求log，然后求導(dǎo)。最后乘以改組參數(shù)的的獎(jiǎng)勵(lì)，在把所有的軌跡求平均。

2. DRL-2

on-Policy off-policy的區(qū)別
自己參與學(xué)習(xí)過程，on-policy,通過觀察學(xué)習(xí)，off-policy

1.off-policy

importance sampling

3.Critic

image.png

1.Monte-Carlo(MC) based

image.png

2. Temporal-difference(TD) approach

中間值差分？

image.png

兩者的差距

蒙特卡羅方法，得到較大的方差。因?yàn)椋瑥念^做到最后的中間過程太多了。差分方法是具有較小的方差。

image.png

another critic
Qpi(s,a)在s狀態(tài)強(qiáng)制使用動(dòng)作a。

image.png

只針對(duì)離散的動(dòng)作有效。

Q-learing

image.png

已經(jīng)學(xué)到pi,在某個(gè)s,代入a,然后求出最大的Q，就可以得到pi，狀態(tài)s對(duì)應(yīng)的a。pi 至于Q有關(guān)。
pi'方程
** 動(dòng)作不要是連續(xù)的值。
為什么得到的就比較好呢？

參考

https://www.youtube.com/watch?v=z95ZYgPgXOY

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1.DRl

1.DRl

1. DRL-1

1.DeppMind（openai） Policy Gradient

2. DRL-2

1.off-policy

3.Critic

1.Monte-Carlo(MC) based

2. Temporal-difference(TD) approach

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

1.DRl

1. DRL-1

1.DeppMind（openai） Policy Gradient

2. DRL-2

1.off-policy

3.Critic

1.Monte-Carlo(MC) based

2. Temporal-difference(TD) approach

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av