1. DRL-1
1.DeppMind(openai) Policy Gradient
- 基本的組件:Actor Env Reward Function。
除了Actor可以自己控制外,其他的都不可以優(yōu)化處理。 - Policy of Actor (Policy=神經(jīng)網(wǎng)絡(luò))
-
動(dòng)作、環(huán)境、獎(jiǎng)勵(lì)的關(guān)系
image.png
這樣形成了一個(gè)軌跡,和軌跡參數(shù)對(duì)應(yīng)的出現(xiàn)幾率。
在不同環(huán)境做不同的動(dòng)作會(huì)有不同的獎(jiǎng)勵(lì)。
image.png
我們希望得到獎(jiǎng)勵(lì)的期望值。方式是:窮舉不同的運(yùn)動(dòng)軌跡得到出現(xiàn)的概率和對(duì)應(yīng)的獎(jiǎng)勵(lì),然后求平均。
- Policy Grdient

我們比較在意與動(dòng)作用關(guān)的項(xiàng)。

一個(gè)參數(shù)theta對(duì)應(yīng)很多tao,每一個(gè)tao對(duì)應(yīng)的過程,
p_(theta)(atn|stn)是對(duì)每一個(gè)軌跡的每一個(gè)時(shí)刻的狀態(tài)和動(dòng)作求概率,并求log,然后求導(dǎo)。最后乘以改組參數(shù)的的獎(jiǎng)勵(lì),在把所有的軌跡求平均。
2. DRL-2
- on-Policy off-policy的區(qū)別
自己參與學(xué)習(xí)過程,on-policy,通過觀察學(xué)習(xí),off-policy
1.off-policy
- importance sampling
3.Critic

1.Monte-Carlo(MC) based

2. Temporal-difference(TD) approach
中間值差分?

- 兩者的差距
蒙特卡羅方法,得到較大的方差。因?yàn)椋瑥念^做到最后的中間過程太多了。差分方法是具有較小的方差。

- another critic
Qpi(s,a)在s狀態(tài)強(qiáng)制使用動(dòng)作a。

只針對(duì)離散的動(dòng)作有效。
-
Q-learing
image.png
已經(jīng)學(xué)到pi,在某個(gè)s,代入a,然后求出最大的Q,就可以得到pi,狀態(tài)s對(duì)應(yīng)的a。pi 至于Q有關(guān)。
pi'方程
** 動(dòng)作不要是連續(xù)的值。
為什么得到的就比較好呢?
- 參考


