關(guān)于Policy Gradient的理解

雖然前段時(shí)間稍微了解過(guò)Policy Gradient,但后來(lái)發(fā)現(xiàn)自己對(duì)其原理的理解還有諸多模糊之處,于是希望重新梳理一番。
Policy Gradient的基礎(chǔ)是強(qiáng)化學(xué)習(xí)理論,同時(shí)我也發(fā)現(xiàn),由于強(qiáng)化學(xué)習(xí)的術(shù)語(yǔ)眾多,雜亂的符號(hào)容易讓我迷失方向,所以對(duì)我自己而言,很有必要重新確立一套統(tǒng)一的符號(hào)使用習(xí)慣。UCL的David Silver可謂是強(qiáng)化學(xué)習(xí)領(lǐng)域數(shù)一數(shù)二的專家(AlphaGo首席研究員),他的課程在網(wǎng)上也大受歡迎,因此我接下來(lái)用于討論問(wèn)題的符號(hào)體系就以他的課件為準(zhǔn)。

Markov Decision Process (MDP)

在概率論和統(tǒng)計(jì)學(xué)中,Markov Decision Processes (MDP) 提供了一個(gè)數(shù)學(xué)架構(gòu)模型,刻畫的是“如何在部分隨機(jī),部分可由決策者控制的狀態(tài)下進(jìn)行決策”的過(guò)程。強(qiáng)化學(xué)習(xí)的體系正是構(gòu)建在MDP之上的。

MDP的定義

有了這樣的定義,自然引申出policyreturn的概念:
policy的定義

return的定義

Value function

Value function也是MDP中一個(gè)非常重要的概念,衡量的是從某個(gè)狀態(tài)開始計(jì)算的return期望值,但容易令初學(xué)者混淆的是,value function一般有兩種定義方式。
一種叫state-value function


另一種叫action-value function,會(huì)顯式地將當(dāng)前采取的動(dòng)作納入考量之中:

從定義上看,兩者顯然可以互相轉(zhuǎn)換:


另外,如果仔細(xì)觀察return的定義


,
會(huì)發(fā)現(xiàn)這兩種value function其實(shí)都可以寫成遞歸的形式:


這又被稱為Bellman Equation,把value function分解成了immediate reward加上后續(xù)狀態(tài)的discounted value。

Policy Gradient

強(qiáng)化學(xué)習(xí)的一類求解算法是直接優(yōu)化policy,而Policy Gradient就是其中的典型代表。
首先需要討論一下policy的目標(biāo)函數(shù)。一般而言,policy的目標(biāo)函數(shù)主要有三種形式:

  • 在episodic環(huán)境(有終止?fàn)顟B(tài),從起始到終止的模擬過(guò)程稱為一個(gè)episode,系統(tǒng)通過(guò)一次次地模擬episode進(jìn)行學(xué)習(xí))中,衡量從起始狀態(tài)開始計(jì)算的value:
  • 在continuing環(huán)境(沒(méi)有終止?fàn)顟B(tài),是一個(gè)無(wú)限的過(guò)程)中,衡量value均值:
  • 不管在哪個(gè)環(huán)境中,只關(guān)注immediate reward,衡量的是每個(gè)時(shí)刻的平均reward:

以上的


是指狀態(tài)的概率分布,與policy有關(guān),并且是stationary distribution of Markov chain,意思是這個(gè)概率分布不會(huì)隨著MDP的時(shí)間推進(jìn)而變化。

雖然這三種目標(biāo)函數(shù)形式不同,但最后分析得到的梯度表達(dá)式都是一樣的。

對(duì)目標(biāo)函數(shù)求梯度會(huì)用到一個(gè)很重要的trick,叫likelihood ratios


對(duì)目標(biāo)函數(shù)求梯度最終都是要轉(zhuǎn)化為對(duì)policy求梯度,而這個(gè)轉(zhuǎn)化的作用是為了湊出
項(xiàng),便于后續(xù)化簡(jiǎn)出期望項(xiàng)。

一個(gè)簡(jiǎn)單的例子是考慮最基本的情況——單步的MDP,在執(zhí)行了一個(gè)時(shí)間單位之后就終止,所得的reward就等于這個(gè)時(shí)刻的immediate reward,記為

目標(biāo)函數(shù)就采用上述第三種的形式:



利用likelihood ratios推導(dǎo)出梯度是:

有個(gè)叫Policy Gradient Theorem的理論表明,無(wú)論采用上述哪種目標(biāo)函數(shù),在多步的MDP下,都有:

在實(shí)際的優(yōu)化中,采用stochastic gradient ascent算法,對(duì)

進(jìn)行無(wú)偏采樣,記為

,因此可以把期望項(xiàng)去掉,參數(shù)更新的公式為:
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容