色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

動態(tài)規(guī)劃

阿山

動態(tài)規(guī)劃

動態(tài)規(guī)劃用來計算最優(yōu)策略，條件是環(huán)境已知。

首先，環(huán)境已知的話，我們可以計算最優(yōu)的value function：根據(jù)貝爾曼方程：

最優(yōu)值函數(shù)

最優(yōu)action-value function

Policy Evaluation 策略估計

首先我們要根據(jù)已有的策略計算這個策略的value function：

value function的定義

所有的概率是已知的，直接計算。最好的方式是根據(jù)貝爾曼方程迭代計算：

value function迭代計算

迭代過程可以從以下偽代碼中得出：

image.png

Policy Improvement

最后編輯于：2017.12.10 01:37:24

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機看全文

桂阳县| 鞍山市| 调兵山市| 岱山县| 敦煌市| 锡林郭勒盟| 吴江市| 海兴县| 双辽市| 五指山市| 南宁市| 淮阳县| 枣庄市| 达孜县| 航空| 白银市| 珲春市| 贵溪市| 来凤县| 丰县| 南靖县| 柘城县| 三穗县| 嘉峪关市| 鄂尔多斯市| 宁强县| 桂林市| 密云县| 涟水县| 芒康县| 延津县| 崇文区| 乌兰察布市| 理塘县| 疏附县| 桐乡市| 清水河县| 双流县| 平乡县| 高邑县| 九龙坡区|

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

動態(tài)規(guī)劃

Policy Evaluation 策略估計

Policy Improvement

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av