97国产公开视频,国产精选一区二区

區(qū)別:

1.Policy Iteration通常是policy evaluation+policy improvement交替執(zhí)行直到收斂

2.Value iteration通常是尋找Optimal value function+一次policy extraction,它們不用交替執(zhí)行,因?yàn)橹岛瘮?shù)最優(yōu),策略通常也是最優(yōu)

3.尋找optimal value function也可以被看作是policy improvement(due to max)和截?cái)喟娴膒olicy evaluation的組合(僅在一次掃描所有狀態(tài)后重新分配V(s)而不考慮其收斂性的組合)

其實(shí)策略迭代就是先估計(jì)，在改進(jìn)策略，直到收斂，如果不收斂就繼續(xù)估計(jì)繼續(xù)改進(jìn)。。。實(shí)現(xiàn)后其實(shí)可以得知策略迭代是先求解出最優(yōu)解，然后再去和環(huán)境進(jìn)行交互求得最大收益，之所以在和環(huán)境交互前能求最優(yōu)策略是提前知道了環(huán)境的轉(zhuǎn)移概率P和回報(bào)函數(shù)R，然后再利用動(dòng)態(tài)規(guī)劃和貝爾曼最優(yōu)方程，但真實(shí)世界中哪里能做到先知先覺(jué)呢?恐怕轉(zhuǎn)移概率和回報(bào)函數(shù)一個(gè)都得不到。

策略迭代和值迭代都屬于動(dòng)態(tài)規(guī)劃算法，DP算法的一個(gè)主要缺點(diǎn)是涉及對(duì)MDP的整個(gè)狀態(tài)集的操作，也就是說(shuō)它們需要對(duì)整個(gè)狀態(tài)集進(jìn)行遍歷。如果狀態(tài)集很大，那么即使是單次遍歷也會(huì)十分昂貴。

DP算法有一個(gè)特殊的性質(zhì)，所有的方法都根據(jù)對(duì)后繼狀態(tài)價(jià)值的估計(jì)，來(lái)更新對(duì)當(dāng)前狀態(tài)價(jià)值的估計(jì)。也就是說(shuō)，他們基于其他估計(jì)來(lái)更新自己的估計(jì)。我們把這種思想稱為自舉法。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

策略迭代和值迭代的區(qū)別及重點(diǎn)

策略迭代和值迭代的區(qū)別及重點(diǎn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

策略迭代和值迭代的區(qū)別及重點(diǎn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av