動(dòng)態(tài)規(guī)劃(Dynamic Programming)

區(qū)分Continuing Task和Episodic Task

前一節(jié)我們已經(jīng)解釋了什么是episode,episode即為從初始的狀態(tài)到終止?fàn)顟B(tài)的整個(gè)過程。那么什么是Continuing Task? 什么是Episodic Task呢?其實(shí),兩者最根本的區(qū)別就是Continuing Task是無法確認(rèn)最終的終止?fàn)顟B(tài),其動(dòng)作狀態(tài)會(huì)一直發(fā)生下去的即為Continuing Task。與此相反,Episodic Task是擁有有限長度的狀態(tài),也就是知道最終的結(jié)束狀態(tài)。

強(qiáng)化學(xué)習(xí)分類

強(qiáng)化學(xué)習(xí)基本上可以分為兩大類。第一類是有模型的強(qiáng)化學(xué)習(xí),另一類為無模型的強(qiáng)化學(xué)習(xí)。模型可以簡單地理解為transition-state probability。而動(dòng)態(tài)規(guī)劃(Dynamic Programming)就是一個(gè)基于有模型的強(qiáng)化學(xué)習(xí)方法。分類圖如下所示:


強(qiáng)化學(xué)習(xí)分類

動(dòng)態(tài)規(guī)劃(Dynamic Programming)

根據(jù)前面推導(dǎo)出來的Value Functions的表達(dá)公式,我們可以看出當(dāng)前狀態(tài)的值可以通過接下來的狀態(tài)值計(jì)算出來。但是,這兩個(gè)狀態(tài)的值函數(shù)我們都不知道。因此,該算法也被稱為自舉(bootstrapping)。接下來我們先看看動(dòng)態(tài)規(guī)劃方法如何對policy來進(jìn)行評估的。

策略評估(Policy Evaluation)

如何來評估策略的好壞呢?這時(shí)候我們需要從數(shù)學(xué)的角度出發(fā),也就是要通過數(shù)值的方式來對策略進(jìn)行評估。數(shù)值大代表策略好,數(shù)值小代表策略不是很好,我們很容易就會(huì)想到Value Functions。

根據(jù)Bellman Equation我們得到state value的計(jì)算公式如下:

iterative policy evaluation

于是,我們就可以通過一次次的迭代來得到該policy的state value了。其偽代碼如下:

policy evaluation 偽代碼

從偽代碼中,我們可以知道Policy Evaluation是對一個(gè)Policy進(jìn)行計(jì)算的。當(dāng)我們更新的state value值幾乎不變時(shí),就可以讓其停止迭代了。

列1:?我們有一個(gè)Gridworld的游戲,其中有2個(gè)終點(diǎn),1-14數(shù)字分別代表14個(gè)不同的狀態(tài)(state),我們可以朝四個(gè)方向走(上下左右),也就是代表了我們的動(dòng)作(action),每一次狀態(tài)的改變都會(huì)得到-1的獎(jiǎng)勵(lì)。游戲如下圖所示:

Gridworld Game

通過Iterative Policy Evaluation方法進(jìn)行迭代,我們得到前兩次迭代的state value矩陣。如下所示:

policy evaluation example

我們來看一下k=2時(shí),-1.7是怎么計(jì)算出來的。因?yàn)槲覀兛梢圆扇?個(gè)動(dòng)作,所以每個(gè)動(dòng)作的概率都為0.25, 而在狀態(tài)1的位置上,其可以向左、向右、向下和原地不動(dòng)。因此,其state value就等于(0.0 * 0.25) + (-1 * 0.25) + (-1 * 0.25) + (-1 * 0.25) = -1.75,四舍五入即為-1.7。

策略提升(Policy Improvement)

我們進(jìn)行策略評估的目的就是為了找到最優(yōu)的策略。還是拿列1來舉例,當(dāng)k=2時(shí),我們已經(jīng)計(jì)算出了各個(gè)狀態(tài)下的state value,比如我們在狀態(tài)2的情況下,為了轉(zhuǎn)換到更好的狀態(tài),我們就朝四個(gè)方向觀察一番,發(fā)現(xiàn)通過向左走可以得到更多(-1.7 > -2.0)的獎(jiǎng)勵(lì),于是我們便采取向左的動(dòng)作,使?fàn)顟B(tài)轉(zhuǎn)換到了狀態(tài)1。這就是策略提升。

通過例子,我們可以知道我們在狀態(tài)不好的情況下采取相應(yīng)行動(dòng)轉(zhuǎn)換到比較好的狀態(tài)的值(也就是action value)一定會(huì)大于當(dāng)前狀態(tài)不好的值(state value)。通過公式推導(dǎo),我們只需要選擇state value值大的地方執(zhí)行策略即可。公式推導(dǎo)如下:

公式推導(dǎo)1

因此,我們可以使用貪婪策略(greedy policy),也就是取其最大值,來得出最優(yōu)的策略(在當(dāng)前狀態(tài)下應(yīng)該采取的動(dòng)作)和最優(yōu)的state value。公式如下所示:

optimal policy
optimal state value

策略迭代(Policy Iteration)

策略迭代就是結(jié)合了策略評估和策略提升,通過一次次的迭代來得到最優(yōu)的策略。如圖:

策略迭代

其中E表示進(jìn)行一次Policy Evaluation,I表示進(jìn)行一次Policy Improvement,*表示最優(yōu)解,0-n表示進(jìn)行了多少次迭代。偽代碼如下所示:

Policy Iteration Code

值迭代(Value Iteration)

根據(jù)策略迭代算法,每一次迭代都要進(jìn)行策略評估和策略提升,直到二者都收斂??晌覀兊哪繕?biāo)是選出最優(yōu)的策略,那么有沒有可能在策略評估值沒有收斂的情況下,最優(yōu)策略已經(jīng)收斂了呢?答案是有這個(gè)可能。我們還拿例1來看,迭代步驟如下所示:

Gridworld Game

可以看出當(dāng)?shù)谌螘r(shí),policy已經(jīng)收斂了,因此無需再對其做策略評估。值迭代過程就是運(yùn)用了這一點(diǎn)的原理,使用縮減過的策略評估在每次迭代中,都會(huì)求最大的policy值,直到其策略收斂。其公式,偽代碼如下:

Value Iteration
偽代碼

GridWorld 部分代碼

代碼1
代碼2

Reference

1. Reinforcement Learning An Introduction

2.強(qiáng)化學(xué)習(xí)入門 第二講 基于模型的動(dòng)態(tài)規(guī)劃方法?https://zhuanlan.zhihu.com/p/25580624

3.Github: Reinforcement Learning An Introduction?https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本文根據(jù)Hawstein的BLOG,加入了自己的一些代碼實(shí)現(xiàn)和理解。概括:動(dòng)態(tài)規(guī)劃算法通常基于一個(gè)遞推公式及一個(gè)或...
    violinmeng閱讀 1,657評論 0 2
  • 一. 增強(qiáng)學(xué)習(xí)簡介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,691評論 0 25
  • 動(dòng)態(tài)規(guī)劃(programming在這里是規(guī)劃的意思)算法設(shè)計(jì)技術(shù)由二十世紀(jì)五十年代的美國卓越數(shù)學(xué)家理查德.貝爾曼發(fā)...
    alonwang閱讀 2,270評論 0 3
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,578評論 19 139
  • 你離開我已經(jīng)十四年了吧!你現(xiàn)在過得還好嗎?我想你了,可是我不能和其他人說,我怕,怕他們說我沒用,真的好想你!當(dāng)...
    煙是我抽的閱讀 195評論 0 2

友情鏈接更多精彩內(nèi)容