FMDs
FMDs(finite Markov decision processes):對(duì)在一種連續(xù)性過程中不斷做出決策的形式化,也是強(qiáng)化學(xué)習(xí)問題理想的數(shù)學(xué)形式化:即當(dāng)前的action產(chǎn)生的效果不僅影響即刻獎(jiǎng)勵(lì),而且還會(huì)決定后續(xù)的states,進(jìn)而影響未來的獎(jiǎng)勵(lì)。因此MDPs需要對(duì)即刻獎(jiǎng)勵(lì)和延遲獎(jiǎng)勵(lì)做tradeoff。
3.1 Agent-Encvironment Interface

如圖,假設(shè)時(shí)間是離散的,
這樣的一個(gè)MDPs產(chǎn)生的一系列稱為一個(gè)trajectory:
之所以稱為有限馬爾科夫過程,是因?yàn)闋顟B(tài)集合和動(dòng)作集合、獎(jiǎng)勵(lì)集合都是有限的。
上述過程定義了一個(gè)概率分布:


函數(shù)
Markov property:當(dāng)前的state對(duì)未來產(chǎn)生影響的假設(shè)。
有了函數(shù),即可計(jì)算:



通常,actions可以視為我們需要學(xué)習(xí)如何去做的任意決策,states可以視為任何對(duì)學(xué)習(xí)做決策有幫助的信息。
通常,不能被agent以任何形式改變的部分都視為屬于Environment。比如Reward總是被視為屬于環(huán)境部分,因?yàn)?strong>Reward的計(jì)算在不能被agent任意改變??傊?,環(huán)境-代理的邊界是代理的絕對(duì)控制極限。
歸納而言,MDPs抽象為三種信號(hào)在agent和environment之間反復(fù)傳播的模型:
- 代理agent做出的選擇:即動(dòng)作。
- 代理做出選擇的依據(jù):即外部傳來的狀態(tài)。
- 代理反復(fù)訓(xùn)練的目標(biāo):即rewards。
3.2 Goals and Rewards
agent的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)(cumulative reward); 用獎(jiǎng)勵(lì)作為目標(biāo)是強(qiáng)化學(xué)習(xí)的最大特征之一。
3.3 Returns and Episodes
如何把學(xué)習(xí)目標(biāo):最大化獎(jiǎng)勵(lì)做到呢?這里,形式化的定義是必不可少的,如果時(shí)間以后得到的一系列獎(jiǎng)勵(lì)記為
的話,
之后我們期望得到的回報(bào)記為
,這是關(guān)于一系列獎(jiǎng)勵(lì)的一個(gè)函數(shù),簡(jiǎn)單看作全部相加的過程的話,我們得到:

這里的
這里,任務(wù)可以分為
episodic task:如迷宮游戲;每一個(gè)episode的結(jié)束狀態(tài)稱為terminal state,很多個(gè)episode組成這樣一個(gè)任務(wù)。
-
continuing task:如機(jī)器人,這樣的任務(wù)有很長(zhǎng)的生命周期,時(shí)間點(diǎn)幾乎無限,所以如何衡量累計(jì)獎(jiǎng)勵(lì)呢?我們引入discounting的概念。
discounting:,看公式:
原來是一個(gè)參數(shù)值,在[0,1]范圍,這樣的話隨著時(shí)間增長(zhǎng)累計(jì)獎(jiǎng)勵(lì)也總是有限范圍,這個(gè)參數(shù)稱為折扣率(discount rate)。
這里看出強(qiáng)化學(xué)習(xí)的一個(gè)重要觀點(diǎn):連續(xù)時(shí)間點(diǎn)給出的回報(bào)之間是有關(guān)聯(lián)的。

