貝爾曼方程與兩類(lèi)值函數(shù)

貝爾曼方程與兩類(lèi)值函數(shù)

為了評(píng)估一個(gè)策略\pi的期望回報(bào),我們定義兩個(gè)值函數(shù):狀態(tài)值函數(shù)狀態(tài)-動(dòng)作值函數(shù)。

狀態(tài)值函數(shù)

折扣率的引入

有終止?fàn)顟B(tài)的情況

總回報(bào)的引入方式如下:
G(\tau)=\sum_{t=0}^{T-1} r_{t+1}=\sum_{t=0}^{T-1} r\left(s_{t}, a_{t}, s_{t+1}\right)
假設(shè)環(huán)境中有一個(gè)或多個(gè)終止?fàn)顟B(tài),當(dāng)?shù)竭_(dá)終止?fàn)顟B(tài)時(shí),一個(gè)智能體和環(huán)境的交互就結(jié)束了。這一輪的交互過(guò)程稱(chēng)為一個(gè)回合(episode)試驗(yàn)(trial)

沒(méi)有終止?fàn)顟B(tài)的情況

如果環(huán)境中沒(méi)有終止?fàn)顟B(tài)(比如終身學(xué)習(xí)的機(jī)器人),即T=\infty,稱(chēng)為持續(xù)性強(qiáng)化學(xué)習(xí)任務(wù),其總回報(bào)也可能是無(wú)窮大。

為了解決這個(gè)問(wèn)題,我們可以引入一個(gè)折扣率來(lái)降低遠(yuǎn)期回報(bào)的比重。折扣回報(bào)定義為
G(\tau)=\sum_{t=0}^{T-1} \gamma^{t} r_{t+1}
其中,\gamma代表折扣率,其取值范圍在零到一之間。

狀態(tài)值函數(shù)的計(jì)算

狀態(tài)值函數(shù)表示在某一狀態(tài)s下,執(zhí)行一個(gè)策略到最終狀態(tài)所能夠得到的總回報(bào),數(shù)學(xué)公式使用V^{\pi}(s)來(lái)進(jìn)行表示。

一個(gè)策略\pi的總期望回報(bào),可以通過(guò)以下公式進(jìn)行計(jì)算:
\begin{aligned} \mathbb{E}_{\tau \sim p(\tau)}[G(\tau)] &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[\mathbb{E}_{\tau \sim p(\tau)} \sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right] ] \\ &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[V^{\pi}(s)\right], \end{aligned}
其中,狀態(tài)值函數(shù)V^{\pi}(s)可以通過(guò)如下來(lái)計(jì)算:
V^{\pi}(s)=\mathbb{E}_{\tau \sim p(\tau)}\left[\sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right]
這個(gè)公式的意思是:從狀態(tài)s出發(fā)所能得到的總回報(bào)等于以狀態(tài)s為初始狀態(tài)的所有可能路徑的回報(bào)的期望。根據(jù)馬爾科夫性,V^{\pi}(s)可展開(kāi)得到:
V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)} \mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]
該公式稱(chēng)為貝爾曼方程。表示當(dāng)前狀態(tài)的值函數(shù)可以通過(guò)下個(gè)狀態(tài)的值函數(shù)來(lái)計(jì)算。

狀態(tài)動(dòng)作值函數(shù)

初始狀態(tài)為s并進(jìn)行動(dòng)作a,然后執(zhí)行策略\pi得到的期望總回報(bào),稱(chēng)為狀態(tài)動(dòng)作值函數(shù),也稱(chēng)為Q函數(shù)。
Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]
該公式表示在狀態(tài)s下,執(zhí)行動(dòng)作a得到的期望回報(bào)Q^{\pi}(s, a)為對(duì)于執(zhí)行動(dòng)作a后的下一可能狀態(tài)s^{\prime}的值函數(shù)V^{\pi}\left(s^{\prime}\right)的折扣期望加上該次獲得的獎(jiǎng)勵(lì)r(s,a,s^{\prime})。

又由于狀態(tài)值函數(shù)V^{\pi}\left(s\right)Q函數(shù)Q^{\pi}(s, a)關(guān)于動(dòng)作a的期望:
V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)}\left[Q^{\pi}(s, a)\right]
結(jié)合上述公式,可以將Q函數(shù)寫(xiě)為:
Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma \mathbb{E}_{a^{\prime} \sim \pi\left(a^{\prime} | s^{\prime}\right)}\left[Q^{\pi}\left(s^{\prime}, a^{\prime}\right)\right]\right]
這是關(guān)于Q函數(shù)的貝爾曼方程。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容