雖然前段時(shí)間稍微了解過(guò)Policy Gradient,但后來(lái)發(fā)現(xiàn)自己對(duì)其原理的理解還有諸多模糊之處,于是希望重新梳理一番。
Policy Gradient的基礎(chǔ)是強(qiáng)化學(xué)習(xí)理論,同時(shí)我也發(fā)現(xiàn),由于強(qiáng)化學(xué)習(xí)的術(shù)語(yǔ)眾多,雜亂的符號(hào)容易讓我迷失方向,所以對(duì)我自己而言,很有必要重新確立一套統(tǒng)一的符號(hào)使用習(xí)慣。UCL的David Silver可謂是強(qiáng)化學(xué)習(xí)領(lǐng)域數(shù)一數(shù)二的專家(AlphaGo首席研究員),他的課程在網(wǎng)上也大受歡迎,因此我接下來(lái)用于討論問(wèn)題的符號(hào)體系就以他的課件為準(zhǔn)。
Markov Decision Process (MDP)
在概率論和統(tǒng)計(jì)學(xué)中,Markov Decision Processes (MDP) 提供了一個(gè)數(shù)學(xué)架構(gòu)模型,刻畫的是“如何在部分隨機(jī),部分可由決策者控制的狀態(tài)下進(jìn)行決策”的過(guò)程。強(qiáng)化學(xué)習(xí)的體系正是構(gòu)建在MDP之上的。

有了這樣的定義,自然引申出policy和return的概念:


Value function
Value function也是MDP中一個(gè)非常重要的概念,衡量的是從某個(gè)狀態(tài)開始計(jì)算的return期望值,但容易令初學(xué)者混淆的是,value function一般有兩種定義方式。
一種叫state-value function:

另一種叫action-value function,會(huì)顯式地將當(dāng)前采取的動(dòng)作納入考量之中:

從定義上看,兩者顯然可以互相轉(zhuǎn)換:


另外,如果仔細(xì)觀察return的定義

,
會(huì)發(fā)現(xiàn)這兩種value function其實(shí)都可以寫成遞歸的形式:


這又被稱為Bellman Equation,把value function分解成了immediate reward加上后續(xù)狀態(tài)的discounted value。
Policy Gradient
強(qiáng)化學(xué)習(xí)的一類求解算法是直接優(yōu)化policy,而Policy Gradient就是其中的典型代表。
首先需要討論一下policy的目標(biāo)函數(shù)。一般而言,policy的目標(biāo)函數(shù)主要有三種形式:
-
在episodic環(huán)境(有終止?fàn)顟B(tài),從起始到終止的模擬過(guò)程稱為一個(gè)episode,系統(tǒng)通過(guò)一次次地模擬episode進(jìn)行學(xué)習(xí))中,衡量從起始狀態(tài)開始計(jì)算的value:
-
在continuing環(huán)境(沒(méi)有終止?fàn)顟B(tài),是一個(gè)無(wú)限的過(guò)程)中,衡量value均值:
-
不管在哪個(gè)環(huán)境中,只關(guān)注immediate reward,衡量的是每個(gè)時(shí)刻的平均reward:
以上的

是指狀態(tài)的概率分布,與policy有關(guān),并且是stationary distribution of Markov chain,意思是這個(gè)概率分布不會(huì)隨著MDP的時(shí)間推進(jìn)而變化。
雖然這三種目標(biāo)函數(shù)形式不同,但最后分析得到的梯度表達(dá)式都是一樣的。
對(duì)目標(biāo)函數(shù)求梯度會(huì)用到一個(gè)很重要的trick,叫likelihood ratios:

對(duì)目標(biāo)函數(shù)求梯度最終都是要轉(zhuǎn)化為對(duì)policy求梯度,而這個(gè)轉(zhuǎn)化的作用是為了湊出


目標(biāo)函數(shù)就采用上述第三種的形式:

利用likelihood ratios推導(dǎo)出梯度是:

有個(gè)叫Policy Gradient Theorem的理論表明,無(wú)論采用上述哪種目標(biāo)函數(shù),在多步的MDP下,都有:


進(jìn)行無(wú)偏采樣,記為

,因此可以把期望項(xiàng)去掉,參數(shù)更新的公式為:



