信賴(lài)域策略?xún)?yōu)化(TRPO)

根據(jù)策略梯度方法,參數(shù)更新方程式為:
\theta_{new}=\theta_{old}+\alpha\nabla_{\theta}J \tag{1}

在策略梯度方法中,合適的步長(zhǎng)\alpha對(duì)于參數(shù)更新至關(guān)重要,當(dāng)步長(zhǎng)不合適時(shí),更新的參數(shù)所對(duì)應(yīng)的策略是一個(gè)更不好的策略,當(dāng)利用這個(gè)更不好的策略進(jìn)行采樣學(xué)習(xí)時(shí),再次更新的參數(shù)會(huì)更差,因此很容易導(dǎo)致越學(xué)越差,最后崩潰。
TRPO要解決的問(wèn)題就是解決這個(gè)問(wèn)題,找到新的策略使得新的回報(bào)函數(shù)的值單調(diào)增,或單調(diào)不減。

\pi是一個(gè)隨機(jī)策略,\rho_0(s_0)是初始狀態(tài)s_0的分布。\eta\left(\pi\right)代表折扣獎(jiǎng)賞的期望,定義如下:
\eta\left(\pi\right)=E_{s_0,a_0,\cdots ~}\left[\sum_{t=0}^{\infty}{\gamma^tA_{\pi}\left(s_t,a_t\right)}\right]\tag{2} \\ subject\ to~~~\ s_0~\rho_0(s_0),a_t~\pi(a_t|s_t),s_{t+1}~P(s_{t+1}|s_t, a_t)

TRPO的目的是找到新的策略,使得回報(bào)函數(shù)單調(diào)不減。那么如果將新的策略所對(duì)應(yīng)的回報(bào)函數(shù)可以用舊的策略所對(duì)應(yīng)的回報(bào)函數(shù)與其他項(xiàng)之和(公式3)代替并保證新的策略所對(duì)應(yīng)的其他項(xiàng)大于等于零,那么新的策略就能保證回報(bào)函數(shù)單調(diào)不減。
\eta\left(\tilde{\pi}\right)=\eta\left(\pi\right)+E_{s_0,a_0,\cdots ~\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^tA_{\pi}\left(s_t,a_t\right)}\right]\tag{3}
其中,
A_{\pi}\left(s,a\right)=Q_{\pi}\left(s,a\right)-V_{\pi}\left(s\right) \tag{4}

證明如下(\tilde{\pi}為新策略,\pi為舊策略):
E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^tA_{\pi}\left(s_t,a_t\right)}\right] \\ =E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^t\left(r\left(s\right)+\gamma V^{\pi}\left(s_{t+1}\right)-V^{\pi}\left(s_t\right)\right)}\right] \\ =E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^t\left(r\left(s_t\right)\right)+\sum_{t=0}^{\infty}{\gamma^t\left(\gamma V^{\pi}\left(s_{t+1}\right)-V^{\pi}\left(s_t\right)\right)}}\right] \\ =E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^t\left(r\left(s_t\right)\right)}\right]+E_{s_0}\left[-V^{\pi}\left(s_0\right)\right] \\ =\eta\left(\tilde{\pi}\right)-\eta\left(\pi\right)

我們定義:
\rho_{\pi}\left(s\right)=P\left(s_0=s\right)+\gamma P\left(s_1=s\right)+\gamma^2P\left(s_2=s\right)+\cdots \tag{5}

為了出現(xiàn)策略項(xiàng),我們可以利用公式(5)將公式(3)改寫(xiě)為
\eta\left(\tilde{\pi}\right)=\eta\left(\pi\right)+\sum_{t=0}^{\infty}{\sum_s{P\left(s_t=s|\tilde{\pi}\right)}}\sum_a{\tilde{\pi}\left(a|s\right)\gamma^tA_{\pi}\left(s,a\right)}=\eta\left(\pi\right)+\sum_s{\rho_{\tilde{\pi}}\left(s\right)\sum_a{\tilde{\pi}\left(a|s\right)A^{\pi}\left(s,a\right)}}\tag{6}

由于\rho_{\tilde{\pi}}嚴(yán)重的依賴(lài)于新的策略\tilde{\pi},使得公式(6)很難去優(yōu)化。因此,我們忽略因策略改變而產(chǎn)生的狀態(tài)分布的改變,即令\rho_{\pi}\approx \rho_{\tilde{\pi}},近似后的公式為
L_{\pi}\left(\tilde{\pi}\right)=\eta\left(\pi\right)+\sum_s{\rho_{\pi}\left(s\right)\sum_a{\tilde{\pi}\left(a|s\right)A^{\pi}\left(s,a\right)}}\tag{7}

對(duì)比公式(6)與公式(7),我們發(fā)現(xiàn)L_{\pi}\left(\tilde{\pi}\right)\textrm{,}\eta\left(\tilde{\pi}\right)在策略 \pi_{\theta_{old}}處一階近似,即:
L_{\pi_{\theta_{old}}}\left(\pi_{\theta_{old}}\right)=\eta\left(\pi_{\theta_{old}}\right) \\ \nabla_{\theta}L_{\pi_{\theta_{old}}}\left(\pi_{\theta}\right)|_{\theta =\theta_{old}}=\nabla_{\theta}\eta\left(\pi_{\theta}\right)|_{\theta =\theta_{old}}\tag{8}

TRPO在“自然策略梯度”的基礎(chǔ)上提出了如下的算法,
\eta\left(\tilde{\pi}\right)\geqslant L_{\pi}\left(\tilde{\pi}\right)-CD_{KL}^{\max}\left(\pi ,\tilde{\pi}\right) \\ subject\ to~~~\ C=\frac{2\varepsilon\gamma}{\left(1-\gamma\right)^2},\varepsilon=\max_{s,a}|A_{\pi}\left(s,a\right)|\tag{9}

該不等式帶給我們重要的啟示,那就是給出了\eta\left(\tilde{\pi}\right)的下界,我們定義這個(gè)下界為

M_i\left( \pi \right)=L_{\pi_i} \left( \pi \right)-{CD}_{KL}^{\max}\left(\pi_i,\pi\right)

利用這個(gè)下界我們可以證明策略的單調(diào)性:

\eta\left(\pi_{i+1}\right)\geqslant M_i\left(\pi_{i+1}\right)\\ \eta\left(\pi_i\right)=M_i\left(\pi_i\right)\\ 則\ \eta\left(\pi_{i+1}\right)-\eta\left(\pi_i\right)\geqslant M_i\left(\pi_{i+1}\right)-M\left(\pi_i\right)\tag{10}

如果新的策略\pi_{i+1}能使得M_i最大,那么有不等式M_i\left(\pi_{i+1}\right)-M\left(\pi_i\right)\geqslant 0,則\eta\left(\pi_{i+1}\right)-\eta\left(\pi_i\right)\geqslant 0,那么我們的目標(biāo)將轉(zhuǎn)化為尋找使得M_i最大的新的策略??尚问交癁?br> maximize_{\theta}\left[L_{\theta_{old}}\left(\theta\right)-CD_{KL}^{\max}\left(\theta_{old},\theta\right)\right]\tag{11}

然而在實(shí)際中,使用懲罰系數(shù) C 會(huì)使得更新步伐非常小,因此,提出如下的形式
maximize_{\theta}L_{\theta_{old}}\left(\theta\right)\\ subject\ to~~~D_{KL}^{\max}\left(\theta_{old},\theta\right)\leqslant \delta\tag{12}

但是,這個(gè)問(wèn)題強(qiáng)加了一個(gè)約束,即KL散度在狀態(tài)空間的每個(gè)點(diǎn)都有界限, 盡管理論上可行,但由于存在大量約束,這個(gè)問(wèn)題難以解決。因此我們可以使用考慮平均KL散度來(lái)近似
maximize_{\theta}L_{\theta_{old}}\left(\theta\right)\\ subject\ to~~~\bar{D}_{KL}^{\rho_{\theta_{old}}}\left(\theta_{old},\theta\right)\le\delta\tag{13}

另外,我們同樣也可以引入“重要性采樣”,并作形式上的演化,最終的不等式化為
maximize_{\theta}E_{s~\pi_{\theta_{old}},a~\pi_{\theta_{old}}}\left[\frac{\pi_{\theta}\left(a|s\right)}{\pi_{\theta_{old}}\left(a|s\right)}A_{\theta_{old}}\left(s,a\right)\right] \\ subject\ to\ E_{s~\pi_{\theta_{old}}}\left[D_{KL}\left(\pi_{\theta_{old}}\left(\cdot |s\right)||\pi_{\theta}\left(\cdot |s\right)\right)\right]\le\delta\tag{14}

論文中提出,可以將A_{\theta_{old}}\left(s,a\right)Q_{\theta_{old}}\left(s,a\right)代替。

論文的部分技巧總結(jié)

  • 理論上證明了可通過(guò)優(yōu)化替代目標(biāo)M_i\left(\pi\right)并對(duì)KL散度進(jìn)行懲罰來(lái)更新策略使得\eta單調(diào)遞增。 然而,較大懲罰系數(shù)C會(huì)導(dǎo)致更新步伐過(guò)小,所以我們希望減小這個(gè)系數(shù)。實(shí)際上,很難有力地選擇懲罰系數(shù),因此我們使用硬約束\delta(KL散度的界限)而不是懲罰。
  • D_{KL}^{\max}\left(\theta_{old},\theta\right)很難進(jìn)行數(shù)值優(yōu)化和估計(jì),因此我們用\bar{D}_{KL}^{\rho_{\theta_{old}}}\left(\theta_{old},\theta\right)來(lái)代替。
  • 我們的理論忽略了優(yōu)勢(shì)函數(shù)的估計(jì)誤差。 Kakade和Langford(2002)在他們的推導(dǎo)中考慮了這個(gè)誤差,并且在本文的背景中也存在相同的論點(diǎn),但是為了簡(jiǎn)單化我們省略了它。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容