貝爾曼方程與兩類(lèi)值函數(shù)
為了評(píng)估一個(gè)策略的期望回報(bào),我們定義兩個(gè)值函數(shù):狀態(tài)值函數(shù)和狀態(tài)-動(dòng)作值函數(shù)。
狀態(tài)值函數(shù)
折扣率的引入
有終止?fàn)顟B(tài)的情況
總回報(bào)的引入方式如下:
假設(shè)環(huán)境中有一個(gè)或多個(gè)終止?fàn)顟B(tài),當(dāng)?shù)竭_(dá)終止?fàn)顟B(tài)時(shí),一個(gè)智能體和環(huán)境的交互就結(jié)束了。這一輪的交互過(guò)程稱(chēng)為一個(gè)回合(episode)或試驗(yàn)(trial)。
沒(méi)有終止?fàn)顟B(tài)的情況
如果環(huán)境中沒(méi)有終止?fàn)顟B(tài)(比如終身學(xué)習(xí)的機(jī)器人),即,稱(chēng)為持續(xù)性強(qiáng)化學(xué)習(xí)任務(wù),其總回報(bào)也可能是無(wú)窮大。
為了解決這個(gè)問(wèn)題,我們可以引入一個(gè)折扣率來(lái)降低遠(yuǎn)期回報(bào)的比重。折扣回報(bào)定義為
其中,代表折扣率,其取值范圍在零到一之間。
狀態(tài)值函數(shù)的計(jì)算
狀態(tài)值函數(shù)表示在某一狀態(tài)下,執(zhí)行一個(gè)策略到最終狀態(tài)所能夠得到的總回報(bào),數(shù)學(xué)公式使用
來(lái)進(jìn)行表示。
一個(gè)策略的總期望回報(bào),可以通過(guò)以下公式進(jìn)行計(jì)算:
其中,狀態(tài)值函數(shù)可以通過(guò)如下來(lái)計(jì)算:
這個(gè)公式的意思是:從狀態(tài)出發(fā)所能得到的總回報(bào)等于以狀態(tài)
為初始狀態(tài)的所有可能路徑的回報(bào)的期望。根據(jù)馬爾科夫性,
可展開(kāi)得到:
該公式稱(chēng)為貝爾曼方程。表示當(dāng)前狀態(tài)的值函數(shù)可以通過(guò)下個(gè)狀態(tài)的值函數(shù)來(lái)計(jì)算。
狀態(tài)動(dòng)作值函數(shù)
初始狀態(tài)為并進(jìn)行動(dòng)作
,然后執(zhí)行策略
得到的期望總回報(bào),稱(chēng)為狀態(tài)動(dòng)作值函數(shù),也稱(chēng)為
函數(shù)。
該公式表示在狀態(tài)下,執(zhí)行動(dòng)作
得到的期望回報(bào)
為對(duì)于執(zhí)行動(dòng)作
后的下一可能狀態(tài)
的值函數(shù)
的折扣期望加上該次獲得的獎(jiǎng)勵(lì)
。
又由于狀態(tài)值函數(shù)是
函數(shù)
關(guān)于動(dòng)作
的期望:
結(jié)合上述公式,可以將函數(shù)寫(xiě)為:
這是關(guān)于函數(shù)的貝爾曼方程。