精品欧美久久久,欧美日韩裸体天堂

雖然前段時(shí)間稍微了解過(guò)Policy Gradient，但后來(lái)發(fā)現(xiàn)自己對(duì)其原理的理解還有諸多模糊之處，于是希望重新梳理一番。
Policy Gradient的基礎(chǔ)是強(qiáng)化學(xué)習(xí)理論，同時(shí)我也發(fā)現(xiàn)，由于強(qiáng)化學(xué)習(xí)的術(shù)語(yǔ)眾多，雜亂的符號(hào)容易讓我迷失方向，所以對(duì)我自己而言，很有必要重新確立一套統(tǒng)一的符號(hào)使用習(xí)慣。UCL的David Silver可謂是強(qiáng)化學(xué)習(xí)領(lǐng)域數(shù)一數(shù)二的專家（AlphaGo首席研究員），他的課程在網(wǎng)上也大受歡迎，因此我接下來(lái)用于討論問(wèn)題的符號(hào)體系就以他的課件為準(zhǔn)。

Markov Decision Process (MDP)

在概率論和統(tǒng)計(jì)學(xué)中，Markov Decision Processes (MDP) 提供了一個(gè)數(shù)學(xué)架構(gòu)模型，刻畫的是“如何在部分隨機(jī)，部分可由決策者控制的狀態(tài)下進(jìn)行決策”的過(guò)程。強(qiáng)化學(xué)習(xí)的體系正是構(gòu)建在MDP之上的。

MDP的定義

有了這樣的定義，自然引申出policy和return的概念：

policy的定義

return的定義

Value function

Value function也是MDP中一個(gè)非常重要的概念，衡量的是從某個(gè)狀態(tài)開始計(jì)算的return期望值，但容易令初學(xué)者混淆的是，value function一般有兩種定義方式。
一種叫state-value function：

另一種叫action-value function，會(huì)顯式地將當(dāng)前采取的動(dòng)作納入考量之中：

從定義上看，兩者顯然可以互相轉(zhuǎn)換：

另外，如果仔細(xì)觀察return的定義

，
會(huì)發(fā)現(xiàn)這兩種value function其實(shí)都可以寫成遞歸的形式：

這又被稱為Bellman Equation，把value function分解成了immediate reward加上后續(xù)狀態(tài)的discounted value。

Policy Gradient

強(qiáng)化學(xué)習(xí)的一類求解算法是直接優(yōu)化policy，而Policy Gradient就是其中的典型代表。
首先需要討論一下policy的目標(biāo)函數(shù)。一般而言，policy的目標(biāo)函數(shù)主要有三種形式：

在episodic環(huán)境（有終止?fàn)顟B(tài)，從起始到終止的模擬過(guò)程稱為一個(gè)episode，系統(tǒng)通過(guò)一次次地模擬episode進(jìn)行學(xué)習(xí)）中，衡量從起始狀態(tài)開始計(jì)算的value：
在continuing環(huán)境（沒(méi)有終止?fàn)顟B(tài)，是一個(gè)無(wú)限的過(guò)程）中，衡量value均值：
不管在哪個(gè)環(huán)境中，只關(guān)注immediate reward，衡量的是每個(gè)時(shí)刻的平均reward：