策略迭代和值迭代的區(qū)別及重點(diǎn)

區(qū)別:

1.Policy Iteration通常是policy evaluation+policy improvement交替執(zhí)行直到收斂

2.Value iteration通常是尋找Optimal value function+一次policy extraction,它們不用交替執(zhí)行,因?yàn)橹岛瘮?shù)最優(yōu),策略通常也是最優(yōu)

3.尋找optimal value function也可以被看作是policy improvement(due to max)和截?cái)喟娴膒olicy evaluation的組合(僅在一次掃描所有狀態(tài)后重新分配V(s)而不考慮其收斂性的組合)

其實(shí)策略迭代就是先估計(jì),在改進(jìn)策略,直到收斂,如果不收斂就繼續(xù)估計(jì)繼續(xù)改進(jìn)。。。實(shí)現(xiàn)后其實(shí)可以得知策略迭代是先求解出最優(yōu)解,然后再去和環(huán)境進(jìn)行交互求得最大收益,之所以在和環(huán)境交互前能求最優(yōu)策略是提前知道了環(huán)境的轉(zhuǎn)移概率P和回報(bào)函數(shù)R,然后再利用動(dòng)態(tài)規(guī)劃和貝爾曼最優(yōu)方程,但真實(shí)世界中哪里能做到先知先覺(jué)呢?恐怕轉(zhuǎn)移概率和回報(bào)函數(shù)一個(gè)都得不到。

策略迭代和值迭代都屬于動(dòng)態(tài)規(guī)劃算法,DP算法的一個(gè)主要缺點(diǎn)是涉及對(duì)MDP的整個(gè)狀態(tài)集的操作,也就是說(shuō)它們需要對(duì)整個(gè)狀態(tài)集進(jìn)行遍歷。如果狀態(tài)集很大,那么即使是單次遍歷也會(huì)十分昂貴。

DP算法有一個(gè)特殊的性質(zhì),所有的方法都根據(jù)對(duì)后繼狀態(tài)價(jià)值的估計(jì),來(lái)更新對(duì)當(dāng)前狀態(tài)價(jià)值的估計(jì)。也就是說(shuō),他們基于其他估計(jì)來(lái)更新自己的估計(jì)。我們把這種思想稱為自舉法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容