什么是SARSA

SARSA算法的全稱是State Action Reward State Action，屬于時(shí)序差分學(xué)習(xí)算法的一種，其綜合了動(dòng)態(tài)規(guī)劃算法和蒙特卡洛算法，比僅僅使用蒙特卡洛方法速度要快很多。當(dāng)時(shí)序差分學(xué)習(xí)算法每次更新的動(dòng)作數(shù)為最大步數(shù)時(shí)，就等價(jià)于蒙特卡洛方法。

值函數(shù)更新公式的引入：多次試驗(yàn)的平均

SARSA的核心思想在于增量計(jì)算。在蒙特卡洛算法中，我們需要對(duì) $Q$ 函數(shù) $\hat{Q}^{\pi}(s, a)$ 進(jìn)行有效的估計(jì)，假設(shè)第 $N$ 次試驗(yàn)后值函數(shù)為 $\hat{Q}_{N}^{\pi}(s, a)$ 的平均為：
$\begin{aligned} \hat{Q}_{N}^{\pi}(s, a) &=\frac{1}{N} \sum_{n=1}^{N} G\left(\tau_{s_{0}=s, a_{0}=a}^{(n)}\right) \\ &=\frac{1}{N}\left(G\left(\tau_{s_{0}=s, a_{0}=a}^{(N)}\right)+\sum_{n=1}^{N-1} G\left(\tau_{s_{0}=s, a_{0}=a}^{(n)}\right)\right) \\ &=\frac{1}{N}\left(G\left(\tau_{s_{0}=s, a_{0}=a}^{(N)}\right)+(N-1) \hat{Q}_{N-1}^{\pi}(s, a)\right) \\ &=\hat{Q}_{N-1}^{\pi}(s, a)+\frac{1}{N}\left(G\left(\tau_{s_{0}=s, a_{0}=a}^{(N)}\right)-\hat{Q}_{N-1}^{\pi}(s, a)\right) \end{aligned}$
其中 $\tau_{s_{0}}=s, a_{0}=a$ 表示軌跡 $\tau$ 的起始狀態(tài)和動(dòng)作為 $s$ , $a$ 。

省卻以上公式的中間過程，我們可以將該公式簡(jiǎn)化為如下：
$\hat{Q}_{N}^{\pi}(s, a)=\hat{Q}_{N-1}^{\pi}(s, a)+\frac{1}{N}\left(G\left(\tau_{s_{0}=s, a_{0}=a}^{(N)}\right)-\hat{Q}_{N-1}^{\pi}(s, a)\right)$
在該公式中，值函數(shù) $\hat{Q}^{\pi}(s, a)$ 在第 $N$ 次試驗(yàn)后的值 $\hat{Q}_{N}^{\pi}(s, a)$ ，即 $N$ 次試驗(yàn)的平均等于前 $N-1$ 次試驗(yàn)再加上一個(gè)增量。在該公式中， $1/N$ 可以表示成第 $N$ 次試驗(yàn)相對(duì)于前 $N-1$ 次試驗(yàn)的重要性。

值函數(shù)更新公式的改進(jìn)：權(quán)重參數(shù)的調(diào)整

更一般性的，我們可以將權(quán)重系數(shù) $1/N$ 改成一個(gè)比較小的正數(shù) $\alpha$ ，由此，以上公式可以被改寫成為以下：
$\hat{Q}^{\pi}(s, a) \leftarrow \hat{Q}^{\pi}(s, a)+\alpha\left(G\left(\tau_{s_{0}=s, a_{0}=a}\right)-\hat{Q}^{\pi}(s, a)\right)$
其中，增量 $\delta \triangleq G\left(\tau_{s_{0}=s, a_{0}=a}\right)-\hat{Q}^{\pi}(s, a)$ 稱為蒙特卡洛誤差，表示真實(shí)的回報(bào)與期望回報(bào)之間的差距。

值函數(shù)更新公式的改進(jìn)：累積獎(jiǎng)勵(lì)的計(jì)算

在上面的公式中， $G\left(\tau_{s_{0}}=s, a_{0}=a\right)$ 為一次試驗(yàn)的完整軌跡所得到的總回報(bào)，為了提高效率，放寬模型的約束，可以借助動(dòng)態(tài)規(guī)劃算法來計(jì)算 $G\left(\tau_{s_{0}}=s, a_{0}=a\right)$ ，而不需要得到完整的軌跡。

從 $s,a$ 開始，采樣下一步的狀態(tài)和動(dòng)作 $\left(s^{\prime}, a^{\prime}\right)$ ，并得到獎(jiǎng)勵(lì) $r(s,a,s^{\prime})$ ，然后利用貝爾曼方程來近似估計(jì)函數(shù) $G\left(\tau_{s_{0}}=s, a_{0}=a\right)$ 。
$\begin{aligned} G\left(\tau_{s 0}=s, a_{0}=a, s_{1}=s^{\prime}, a_{1}=a^{\prime}\right) &=r\left(s, a, s^{\prime}\right)+\gamma G\left(\tau_{s 0}=s^{\prime}, a_{0}=a^{\prime}\right) \\ & \approx r\left(s, a, s^{\prime}\right)+\gamma \hat{Q}^{\pi}\left(s^{\prime}, a^{\prime}\right) \end{aligned}$
貝爾曼方程的思想精髓在于動(dòng)態(tài)規(guī)劃，即當(dāng)前值的計(jì)算依賴于上一時(shí)刻的值。對(duì)于無最終狀態(tài)的情況，我們定義了折扣率 $\gamma$ 來重點(diǎn)強(qiáng)調(diào)現(xiàn)世的回報(bào)。

將以上公式結(jié)合，可以得到以下計(jì)算公式：
$\hat{Q}^{\pi}(s, a) \leftarrow \hat{Q}^{\pi}(s, a)+\alpha\left(r\left(s, a, s^{\prime}\right)+\gamma \hat{Q}^{\pi}\left(s^{\prime}, a^{\prime}\right)-\hat{Q}^{\pi}(s, a)\right)$
這種策略學(xué)習(xí)算法稱為 $SARSA$ 算法。

通用 $SARSA$ 算法框架：一個(gè)示例

一個(gè)通用的 $SARSA$ 算法如下所示：

SARSA算法框架

該算法的大致邏輯如下：

運(yùn)行完一個(gè)回合即一個(gè)內(nèi)循環(huán)。
運(yùn)行直到 $Q$ 函數(shù)收斂即為一個(gè)外循環(huán)。
運(yùn)行期間動(dòng)態(tài)更新 $Q$ 函數(shù)，并基于 $Q$ 函數(shù)更新策略 $\pi(s)$ 。

時(shí)序差分學(xué)習(xí)和蒙特卡羅方法的主要不同為:蒙特卡羅需要完整一個(gè)路徑完成才能知道其總回報(bào)，也不依賴馬爾可夫性質(zhì)；而時(shí)序差分學(xué)習(xí)只需要一步，其總回報(bào)需要依賴馬爾可夫性質(zhì)來進(jìn)行近似估計(jì)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

SARSA時(shí)序差分學(xué)習(xí)方法

SARSA時(shí)序差分學(xué)習(xí)方法

什么是SARSA

值函數(shù)更新公式的引入：多次試驗(yàn)的平均

值函數(shù)更新公式的改進(jìn)：權(quán)重參數(shù)的調(diào)整

值函數(shù)更新公式的改進(jìn)：累積獎(jiǎng)勵(lì)的計(jì)算

通用 $SARSA$ 算法框架：一個(gè)示例

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

SARSA時(shí)序差分學(xué)習(xí)方法

什么是SARSA

值函數(shù)更新公式的引入：多次試驗(yàn)的平均

值函數(shù)更新公式的改進(jìn)：權(quán)重參數(shù)的調(diào)整

值函數(shù)更新公式的改進(jìn)：累積獎(jiǎng)勵(lì)的計(jì)算

通用算法框架：一個(gè)示例

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

通用 $SARSA$ 算法框架：一個(gè)示例