久操免费在线视频,亚洲国产综合小视频,日韩精品www

根據(jù)策略梯度方法，參數(shù)更新方程式為：
$\theta_{new}=\theta_{old}+\alpha\nabla_{\theta}J \tag{1}$

在策略梯度方法中，合適的步長(zhǎng) $\alpha$ 對(duì)于參數(shù)更新至關(guān)重要，當(dāng)步長(zhǎng)不合適時(shí)，更新的參數(shù)所對(duì)應(yīng)的策略是一個(gè)更不好的策略，當(dāng)利用這個(gè)更不好的策略進(jìn)行采樣學(xué)習(xí)時(shí)，再次更新的參數(shù)會(huì)更差，因此很容易導(dǎo)致越學(xué)越差，最后崩潰。
TRPO要解決的問(wèn)題就是解決這個(gè)問(wèn)題，找到新的策略使得新的回報(bào)函數(shù)的值單調(diào)增，或單調(diào)不減。

$\pi$ 是一個(gè)隨機(jī)策略， $\rho_0(s_0)$ 是初始狀態(tài) $s_0$ 的分布。 $\eta\left(\pi\right)$ 代表折扣獎(jiǎng)賞的期望，定義如下：
$\eta\left(\pi\right)=E_{s_0,a_0,\cdots ~}\left[\sum_{t=0}^{\infty}{\gamma^tA_{\pi}\left(s_t,a_t\right)}\right]\tag{2} \\ subject\ to~~~\ s_0～\rho_0(s_0),a_t～\pi(a_t|s_t),s_{t+1}～P(s_{t+1}|s_t, a_t)$

TRPO的目的是找到新的策略，使得回報(bào)函數(shù)單調(diào)不減。那么如果將新的策略所對(duì)應(yīng)的回報(bào)函數(shù)可以用舊的策略所對(duì)應(yīng)的回報(bào)函數(shù)與其他項(xiàng)之和(公式3)代替并保證新的策略所對(duì)應(yīng)的其他項(xiàng)大于等于零，那么新的策略就能保證回報(bào)函數(shù)單調(diào)不減。
$\eta\left(\tilde{\pi}\right)=\eta\left(\pi\right)+E_{s_0,a_0,\cdots ~\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^tA_{\pi}\left(s_t,a_t\right)}\right]\tag{3}$
其中,
$A_{\pi}\left(s,a\right)=Q_{\pi}\left(s,a\right)-V_{\pi}\left(s\right) \tag{4}$

證明如下( $\tilde{\pi}$ 為新策略， $\pi$ 為舊策略)：
$E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^tA_{\pi}\left(s_t,a_t\right)}\right] \\ =E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^t\left(r\left(s\right)+\gamma V^{\pi}\left(s_{t+1}\right)-V^{\pi}\left(s_t\right)\right)}\right] \\ =E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^t\left(r\left(s_t\right)\right)+\sum_{t=0}^{\infty}{\gamma^t\left(\gamma V^{\pi}\left(s_{t+1}\right)-V^{\pi}\left(s_t\right)\right)}}\right] \\ =E_{\tau |\tilde{\pi}}\left[\sum_{t=0}^{\infty}{\gamma^t\left(r\left(s_t\right)\right)}\right]+E_{s_0}\left[-V^{\pi}\left(s_0\right)\right] \\ =\eta\left(\tilde{\pi}\right)-\eta\left(\pi\right)$

我們定義:
$\rho_{\pi}\left(s\right)=P\left(s_0=s\right)+\gamma P\left(s_1=s\right)+\gamma^2P\left(s_2=s\right)+\cdots \tag{5}$

為了出現(xiàn)策略項(xiàng)，我們可以利用公式（5）將公式（3）改寫(xiě)為
$\eta\left(\tilde{\pi}\right)=\eta\left(\pi\right)+\sum_{t=0}^{\infty}{\sum_s{P\left(s_t=s|\tilde{\pi}\right)}}\sum_a{\tilde{\pi}\left(a|s\right)\gamma^tA_{\pi}\left(s,a\right)}=\eta\left(\pi\right)+\sum_s{\rho_{\tilde{\pi}}\left(s\right)\sum_a{\tilde{\pi}\left(a|s\right)A^{\pi}\left(s,a\right)}}\tag{6}$

由于 $\rho_{\tilde{\pi}}$ 嚴(yán)重的依賴(lài)于新的策略 $\tilde{\pi}$ ，使得公式（6）很難去優(yōu)化。因此，我們忽略因策略改變而產(chǎn)生的狀態(tài)分布的改變，即令 $\rho_{\pi}\approx \rho_{\tilde{\pi}}$ ，近似后的公式為
$L_{\pi}\left(\tilde{\pi}\right)=\eta\left(\pi\right)+\sum_s{\rho_{\pi}\left(s\right)\sum_a{\tilde{\pi}\left(a|s\right)A^{\pi}\left(s,a\right)}}\tag{7}$

對(duì)比公式（6）與公式（7），我們發(fā)現(xiàn) $L_{\pi}\left(\tilde{\pi}\right)\textrm{，}\eta\left(\tilde{\pi}\right)$ 在策略 $\pi_{\theta_{old}}$ 處一階近似，即：
$L_{\pi_{\theta_{old}}}\left(\pi_{\theta_{old}}\right)=\eta\left(\pi_{\theta_{old}}\right) \\ \nabla_{\theta}L_{\pi_{\theta_{old}}}\left(\pi_{\theta}\right)|_{\theta =\theta_{old}}=\nabla_{\theta}\eta\left(\pi_{\theta}\right)|_{\theta =\theta_{old}}\tag{8}$

TRPO在“自然策略梯度”的基礎(chǔ)上提出了如下的算法，
$\eta\left(\tilde{\pi}\right)\geqslant L_{\pi}\left(\tilde{\pi}\right)-CD_{KL}^{\max}\left(\pi ,\tilde{\pi}\right) \\ subject\ to~~~\ C=\frac{2\varepsilon\gamma}{\left(1-\gamma\right)^2},\varepsilon=\max_{s,a}|A_{\pi}\left(s,a\right)|\tag{9}$

該不等式帶給我們重要的啟示，那就是給出了 $\eta\left(\tilde{\pi}\right)$ 的下界，我們定義這個(gè)下界為

$M_i\left( \pi \right)=L_{\pi_i} \left( \pi \right)-{CD}_{KL}^{\max}\left(\pi_i,\pi\right)$

利用這個(gè)下界我們可以證明策略的單調(diào)性：

$\eta\left(\pi_{i+1}\right)\geqslant M_i\left(\pi_{i+1}\right)\\ \eta\left(\pi_i\right)=M_i\left(\pi_i\right)\\ 則\ \eta\left(\pi_{i+1}\right)-\eta\left(\pi_i\right)\geqslant M_i\left(\pi_{i+1}\right)-M\left(\pi_i\right)\tag{10}$

如果新的策略 $\pi_{i+1}$ 能使得 $M_i$ 最大，那么有不等式 $M_i\left(\pi_{i+1}\right)-M\left(\pi_i\right)\geqslant 0$ ，則 $\eta\left(\pi_{i+1}\right)-\eta\left(\pi_i\right)\geqslant 0$ ，那么我們的目標(biāo)將轉(zhuǎn)化為尋找使得 $M_i$ 最大的新的策略?？尚问交癁?br> $maximize_{\theta}\left[L_{\theta_{old}}\left(\theta\right)-CD_{KL}^{\max}\left(\theta_{old},\theta\right)\right]\tag{11}$

然而在實(shí)際中，使用懲罰系數(shù) C 會(huì)使得更新步伐非常小，因此，提出如下的形式
$maximize_{\theta}L_{\theta_{old}}\left(\theta\right)\\ subject\ to~~~D_{KL}^{\max}\left(\theta_{old},\theta\right)\leqslant \delta\tag{12}$

但是，這個(gè)問(wèn)題強(qiáng)加了一個(gè)約束，即KL散度在狀態(tài)空間的每個(gè)點(diǎn)都有界限，盡管理論上可行，但由于存在大量約束，這個(gè)問(wèn)題難以解決。因此我們可以使用考慮平均KL散度來(lái)近似
$maximize_{\theta}L_{\theta_{old}}\left(\theta\right)\\ subject\ to~~~\bar{D}_{KL}^{\rho_{\theta_{old}}}\left(\theta_{old},\theta\right)\le\delta\tag{13}$

另外，我們同樣也可以引入“重要性采樣”，并作形式上的演化，最終的不等式化為
$maximize_{\theta}E_{s~\pi_{\theta_{old}},a~\pi_{\theta_{old}}}\left[\frac{\pi_{\theta}\left(a|s\right)}{\pi_{\theta_{old}}\left(a|s\right)}A_{\theta_{old}}\left(s,a\right)\right] \\ subject\ to\ E_{s~\pi_{\theta_{old}}}\left[D_{KL}\left(\pi_{\theta_{old}}\left(\cdot |s\right)||\pi_{\theta}\left(\cdot |s\right)\right)\right]\le\delta\tag{14}$

論文中提出，可以將 $A_{\theta_{old}}\left(s,a\right)$ 用 $Q_{\theta_{old}}\left(s,a\right)$ 代替。

論文的部分技巧總結(jié)

理論上證明了可通過(guò)優(yōu)化替代目標(biāo) $M_i\left(\pi\right)$ 并對(duì)KL散度進(jìn)行懲罰來(lái)更新策略使得 $\eta$ 單調(diào)遞增。然而，較大懲罰系數(shù) $C$ 會(huì)導(dǎo)致更新步伐過(guò)小，所以我們希望減小這個(gè)系數(shù)。實(shí)際上，很難有力地選擇懲罰系數(shù)，因此我們使用硬約束 $\delta$ （KL散度的界限）而不是懲罰。
$D_{KL}^{\max}\left(\theta_{old},\theta\right)$ 很難進(jìn)行數(shù)值優(yōu)化和估計(jì)，因此我們用 $\bar{D}_{KL}^{\rho_{\theta_{old}}}\left(\theta_{old},\theta\right)$ 來(lái)代替。
我們的理論忽略了優(yōu)勢(shì)函數(shù)的估計(jì)誤差。 Kakade和Langford（2002）在他們的推導(dǎo)中考慮了這個(gè)誤差，并且在本文的背景中也存在相同的論點(diǎn)，但是為了簡(jiǎn)單化我們省略了它。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

信賴(lài)域策略?xún)?yōu)化(TRPO)

信賴(lài)域策略?xún)?yōu)化(TRPO)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

信賴(lài)域策略?xún)?yōu)化(TRPO)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av