動態(tài)規(guī)劃用來計算最優(yōu)策略,條件是環(huán)境已知。
首先,環(huán)境已知的話,我們可以計算最優(yōu)的value function:根據(jù)貝爾曼方程:

最優(yōu)值函數(shù)

最優(yōu)action-value function
Policy Evaluation 策略估計
首先我們要根據(jù)已有的策略計算這個策略的value function:

value function的定義
所有的概率是已知的,直接計算。最好的方式是根據(jù)貝爾曼方程迭代計算:

value function迭代計算
迭代過程可以從以下偽代碼中得出:

image.png