#David Silver Reinforcement Learning # 筆記3-DP

這節(jié)主要講了動(dòng)態(tài)規(guī)劃在強(qiáng)化學(xué)習(xí)中的用法。

image.png

引入兩個(gè)問(wèn)題的定義,Prediction,Control。
Prediction:

image.png

預(yù)測(cè)問(wèn)題,MDP的信息都知道,policy也知道。輸出該策略下的V。
Control:

image.png

控制問(wèn)題,MDP的信息都知道,但是不知道policy,輸出最優(yōu)情況下的,V和policy。

對(duì)于Prediction問(wèn)題,只需要根據(jù)policy求出最優(yōu)的value就行。
對(duì)于control問(wèn)題,有兩個(gè)方法,第一種是Policy Iteration。

Policy Iteration

  1. 隨機(jī)初始化Value(一般全置0),然后隨機(jī)初始化Policy。
  2. 貪心的優(yōu)化Policy
  3. 然后依據(jù)新的Policy繼續(xù)求Value。然后繼續(xù)優(yōu)化Policy,依次迭代。
image.png
image.png

Value Iteration

另一種方法是值迭代。根據(jù)bellman方程,迭代優(yōu)化值函數(shù),而不管policy,直到最后,得到最優(yōu)的value。

image.png

我們可以將這個(gè)迭代公式分成兩步:
第一步遍歷所有的動(dòng)作a得到不同動(dòng)作a所對(duì)應(yīng)的一個(gè)值函數(shù)更新,即:


[\upsilon_{l+1}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon_l\left(s'\right)}]
[\upsilon_{l+1}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon_l\left(s'\right)}]

(2.3)

第二步,對(duì)動(dòng)作a進(jìn)行遍歷,找到最大的
\upsilon_{l+1}\left(s,a\right)
\upsilon_{l+1}\left(s,a\right)
,即:
[\upsilon_{l+1}\left(s\right)=\underset{a}{\max}\upsilon_{l+1}\left(s,a\right)]
[\upsilon_{l+1}\left(s\right)=\underset{a}{\max}\upsilon_{l+1}\left(s,a\right)]
(2.4)

https://www.bilibili.com/video/av9930653/
https://zhuanlan.zhihu.com/p/27330154
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/DP.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容