區(qū)分Continuing Task和Episodic Task

前一節(jié)我們已經(jīng)解釋了什么是episode，episode即為從初始的狀態(tài)到終止?fàn)顟B(tài)的整個(gè)過程。那么什么是Continuing Task？什么是Episodic Task呢？其實(shí)，兩者最根本的區(qū)別就是Continuing Task是無法確認(rèn)最終的終止?fàn)顟B(tài)，其動(dòng)作狀態(tài)會(huì)一直發(fā)生下去的即為Continuing Task。與此相反，Episodic Task是擁有有限長度的狀態(tài)，也就是知道最終的結(jié)束狀態(tài)。

強(qiáng)化學(xué)習(xí)分類

強(qiáng)化學(xué)習(xí)基本上可以分為兩大類。第一類是有模型的強(qiáng)化學(xué)習(xí)，另一類為無模型的強(qiáng)化學(xué)習(xí)。模型可以簡單地理解為transition-state probability。而動(dòng)態(tài)規(guī)劃(Dynamic Programming)就是一個(gè)基于有模型的強(qiáng)化學(xué)習(xí)方法。分類圖如下所示：

強(qiáng)化學(xué)習(xí)分類

動(dòng)態(tài)規(guī)劃(Dynamic Programming)

根據(jù)前面推導(dǎo)出來的Value Functions的表達(dá)公式，我們可以看出當(dāng)前狀態(tài)的值可以通過接下來的狀態(tài)值計(jì)算出來。但是，這兩個(gè)狀態(tài)的值函數(shù)我們都不知道。因此，該算法也被稱為自舉(bootstrapping)。接下來我們先看看動(dòng)態(tài)規(guī)劃方法如何對policy來進(jìn)行評估的。

策略評估(Policy Evaluation)

如何來評估策略的好壞呢？這時(shí)候我們需要從數(shù)學(xué)的角度出發(fā)，也就是要通過數(shù)值的方式來對策略進(jìn)行評估。數(shù)值大代表策略好，數(shù)值小代表策略不是很好，我們很容易就會(huì)想到Value Functions。

根據(jù)Bellman Equation我們得到state value的計(jì)算公式如下：

iterative policy evaluation

于是，我們就可以通過一次次的迭代來得到該policy的state value了。其偽代碼如下：

policy evaluation 偽代碼

從偽代碼中，我們可以知道Policy Evaluation是對一個(gè)Policy進(jìn)行計(jì)算的。當(dāng)我們更新的state value值幾乎不變時(shí)，就可以讓其停止迭代了。

列1:?我們有一個(gè)Gridworld的游戲，其中有2個(gè)終點(diǎn)，1-14數(shù)字分別代表14個(gè)不同的狀態(tài)(state)，我們可以朝四個(gè)方向走(上下左右)，也就是代表了我們的動(dòng)作(action)，每一次狀態(tài)的改變都會(huì)得到-1的獎(jiǎng)勵(lì)。游戲如下圖所示：

Gridworld Game

通過Iterative Policy Evaluation方法進(jìn)行迭代，我們得到前兩次迭代的state value矩陣。如下所示：

policy evaluation example

我們來看一下k=2時(shí)，-1.7是怎么計(jì)算出來的。因?yàn)槲覀兛梢圆扇?個(gè)動(dòng)作，所以每個(gè)動(dòng)作的概率都為0.25, 而在狀態(tài)1的位置上，其可以向左、向右、向下和原地不動(dòng)。因此，其state value就等于(0.0 * 0.25) + (-1 * 0.25) + (-1 * 0.25) + (-1 * 0.25) = -1.75，四舍五入即為-1.7。

策略提升(Policy Improvement)

我們進(jìn)行策略評估的目的就是為了找到最優(yōu)的策略。還是拿列1來舉例，當(dāng)k=2時(shí)，我們已經(jīng)計(jì)算出了各個(gè)狀態(tài)下的state value，比如我們在狀態(tài)2的情況下，為了轉(zhuǎn)換到更好的狀態(tài)，我們就朝四個(gè)方向觀察一番，發(fā)現(xiàn)通過向左走可以得到更多(-1.7 > -2.0)的獎(jiǎng)勵(lì)，于是我們便采取向左的動(dòng)作，使?fàn)顟B(tài)轉(zhuǎn)換到了狀態(tài)1。這就是策略提升。

通過例子，我們可以知道我們在狀態(tài)不好的情況下采取相應(yīng)行動(dòng)轉(zhuǎn)換到比較好的狀態(tài)的值(也就是action value)一定會(huì)大于當(dāng)前狀態(tài)不好的值(state value)。通過公式推導(dǎo)，我們只需要選擇state value值大的地方執(zhí)行策略即可。公式推導(dǎo)如下：