動態(tài)規(guī)劃

動態(tài)規(guī)劃用來計算最優(yōu)策略,條件是環(huán)境已知。

首先,環(huán)境已知的話,我們可以計算最優(yōu)的value function:根據(jù)貝爾曼方程:

最優(yōu)值函數(shù)
最優(yōu)action-value function

Policy Evaluation 策略估計

首先我們要根據(jù)已有的策略計算這個策略的value function:

value function的定義

所有的概率是已知的,直接計算。最好的方式是根據(jù)貝爾曼方程迭代計算:

value function迭代計算

迭代過程可以從以下偽代碼中得出:


image.png

Policy Improvement

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容