貝爾曼方程與兩類(lèi)值函數(shù)

為了評(píng)估一個(gè)策略 $\pi$ 的期望回報(bào)，我們定義兩個(gè)值函數(shù)：狀態(tài)值函數(shù)和狀態(tài)-動(dòng)作值函數(shù)。

狀態(tài)值函數(shù)

折扣率的引入

有終止?fàn)顟B(tài)的情況

總回報(bào)的引入方式如下：
$G(\tau)=\sum_{t=0}^{T-1} r_{t+1}=\sum_{t=0}^{T-1} r\left(s_{t}, a_{t}, s_{t+1}\right)$
假設(shè)環(huán)境中有一個(gè)或多個(gè)終止?fàn)顟B(tài)，當(dāng)?shù)竭_(dá)終止?fàn)顟B(tài)時(shí)，一個(gè)智能體和環(huán)境的交互就結(jié)束了。這一輪的交互過(guò)程稱(chēng)為一個(gè)回合（episode）或試驗(yàn)（trial）。

沒(méi)有終止?fàn)顟B(tài)的情況

如果環(huán)境中沒(méi)有終止?fàn)顟B(tài)(比如終身學(xué)習(xí)的機(jī)器人)，即 $T=\infty$ ，稱(chēng)為持續(xù)性強(qiáng)化學(xué)習(xí)任務(wù)，其總回報(bào)也可能是無(wú)窮大。

為了解決這個(gè)問(wèn)題，我們可以引入一個(gè)折扣率來(lái)降低遠(yuǎn)期回報(bào)的比重。折扣回報(bào)定義為
$G(\tau)=\sum_{t=0}^{T-1} \gamma^{t} r_{t+1}$
其中， $\gamma$ 代表折扣率，其取值范圍在零到一之間。

狀態(tài)值函數(shù)的計(jì)算

狀態(tài)值函數(shù)表示在某一狀態(tài) $s$ 下，執(zhí)行一個(gè)策略到最終狀態(tài)所能夠得到的總回報(bào)，數(shù)學(xué)公式使用 $V^{\pi}(s)$ 來(lái)進(jìn)行表示。

一個(gè)策略 $\pi$ 的總期望回報(bào)，可以通過(guò)以下公式進(jìn)行計(jì)算：
$\begin{aligned} \mathbb{E}_{\tau \sim p(\tau)}[G(\tau)] &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[\mathbb{E}_{\tau \sim p(\tau)} \sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right] ] \\ &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[V^{\pi}(s)\right], \end{aligned}$
其中，狀態(tài)值函數(shù) $V^{\pi}(s)$ 可以通過(guò)如下來(lái)計(jì)算：
$V^{\pi}(s)=\mathbb{E}_{\tau \sim p(\tau)}\left[\sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right]$
這個(gè)公式的意思是：從狀態(tài) $s$ 出發(fā)所能得到的總回報(bào)等于以狀態(tài) $s$ 為初始狀態(tài)的所有可能路徑的回報(bào)的期望。根據(jù)馬爾科夫性， $V^{\pi}(s)$ 可展開(kāi)得到：
$V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)} \mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]$
該公式稱(chēng)為貝爾曼方程。表示當(dāng)前狀態(tài)的值函數(shù)可以通過(guò)下個(gè)狀態(tài)的值函數(shù)來(lái)計(jì)算。

狀態(tài)動(dòng)作值函數(shù)

初始狀態(tài)為 $s$ 并進(jìn)行動(dòng)作 $a$ ，然后執(zhí)行策略 $\pi$ 得到的期望總回報(bào)，稱(chēng)為狀態(tài)動(dòng)作值函數(shù)，也稱(chēng)為 $Q$ 函數(shù)。
$Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]$
該公式表示在狀態(tài) $s$ 下，執(zhí)行動(dòng)作 $a$ 得到的期望回報(bào) $Q^{\pi}(s, a)$ 為對(duì)于執(zhí)行動(dòng)作 $a$ 后的下一可能狀態(tài) $s^{\prime}$ 的值函數(shù) $V^{\pi}\left(s^{\prime}\right)$ 的折扣期望加上該次獲得的獎(jiǎng)勵(lì) $r(s,a,s^{\prime})$ 。

又由于狀態(tài)值函數(shù) $V^{\pi}\left(s\right)$ 是 $Q$ 函數(shù) $Q^{\pi}(s, a)$ 關(guān)于動(dòng)作 $a$ 的期望：
$V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)}\left[Q^{\pi}(s, a)\right]$
結(jié)合上述公式，可以將 $Q$ 函數(shù)寫(xiě)為：
$Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma \mathbb{E}_{a^{\prime} \sim \pi\left(a^{\prime} | s^{\prime}\right)}\left[Q^{\pi}\left(s^{\prime}, a^{\prime}\right)\right]\right]$
這是關(guān)于 $Q$ 函數(shù)的貝爾曼方程。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

貝爾曼方程與兩類(lèi)值函數(shù)