這節(jié)主要講了動(dòng)態(tài)規(guī)劃在強(qiáng)化學(xué)習(xí)中的用法。

image.png
引入兩個(gè)問(wèn)題的定義,Prediction,Control。
Prediction:

image.png
預(yù)測(cè)問(wèn)題,MDP的信息都知道,policy也知道。輸出該策略下的V。
Control:

image.png
控制問(wèn)題,MDP的信息都知道,但是不知道policy,輸出最優(yōu)情況下的,V和policy。
對(duì)于Prediction問(wèn)題,只需要根據(jù)policy求出最優(yōu)的value就行。
對(duì)于control問(wèn)題,有兩個(gè)方法,第一種是Policy Iteration。
Policy Iteration
- 隨機(jī)初始化Value(一般全置0),然后隨機(jī)初始化Policy。
- 貪心的優(yōu)化Policy
- 然后依據(jù)新的Policy繼續(xù)求Value。然后繼續(xù)優(yōu)化Policy,依次迭代。

image.png

image.png
Value Iteration
另一種方法是值迭代。根據(jù)bellman方程,迭代優(yōu)化值函數(shù),而不管policy,直到最后,得到最優(yōu)的value。

image.png
我們可以將這個(gè)迭代公式分成兩步:
第一步遍歷所有的動(dòng)作a得到不同動(dòng)作a所對(duì)應(yīng)的一個(gè)值函數(shù)更新,即:
[\upsilon_{l+1}\left(s,a\right)=R_{s}^{a}+\gamma\sum_{s'\in S}{P_{ss'}^{a}\upsilon_l\left(s'\right)}]
(2.3)
\upsilon_{l+1}\left(s,a\right)
[\upsilon_{l+1}\left(s\right)=\underset{a}{\max}\upsilon_{l+1}\left(s,a\right)]
https://www.bilibili.com/video/av9930653/
https://zhuanlan.zhihu.com/p/27330154
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/DP.pdf