FMDs

FMDs（finite Markov decision processes）：對(duì)在一種連續(xù)性過程中不斷做出決策的形式化，也是強(qiáng)化學(xué)習(xí)問題理想的數(shù)學(xué)形式化：即當(dāng)前的action產(chǎn)生的效果不僅影響即刻獎(jiǎng)勵(lì)，而且還會(huì)決定后續(xù)的states，進(jìn)而影響未來的獎(jiǎng)勵(lì)。因此MDPs需要對(duì)即刻獎(jiǎng)勵(lì)和延遲獎(jiǎng)勵(lì)做tradeoff。

3.1 Agent-Encvironment Interface

如圖，假設(shè)時(shí)間是離散的，

t=0,2,3,.....

在每一個(gè)時(shí)間點(diǎn)，agent接受來自于environment產(chǎn)生的state，

A_t \in A(s)

；以此為條件選擇一個(gè)action,

A_t \in \mathcal A(s)

，動(dòng)作的結(jié)果是產(chǎn)生一個(gè)數(shù)值Reward：

R_{t+1}\in\mathcal R

，反饋給agent,并出現(xiàn)新的state：

S_{t+1}

。
這樣的一個(gè)MDPs產(chǎn)生的一系列稱為一個(gè)trajectory：

S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,.....\tag{3.1}

之所以稱為有限馬爾科夫過程，是因?yàn)闋顟B(tài)集合和動(dòng)作集合、獎(jiǎng)勵(lì)集合都是有限的。
上述過程定義了一個(gè)概率分布：

函數(shù)

p

給出的概率完全描述了有限MDPs。
Markov property：當(dāng)前的state對(duì)未來產(chǎn)生影響的假設(shè)。

有了函數(shù) $p$ ，即可計(jì)算：

通常，actions可以視為我們需要學(xué)習(xí)如何去做的任意決策，states可以視為任何對(duì)學(xué)習(xí)做決策有幫助的信息。

通常，不能被agent以任何形式改變的部分都視為屬于Environment。比如Reward總是被視為屬于環(huán)境部分，因?yàn)?strong>Reward的計(jì)算在不能被agent任意改變?？傊?，環(huán)境-代理的邊界是代理的絕對(duì)控制極限。

歸納而言，MDPs抽象為三種信號(hào)在agent和environment之間反復(fù)傳播的模型：

代理agent做出的選擇：即動(dòng)作。
代理做出選擇的依據(jù)：即外部傳來的狀態(tài)。
代理反復(fù)訓(xùn)練的目標(biāo)：即rewards。

3.2 Goals and Rewards

agent的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)（cumulative reward）; 用獎(jiǎng)勵(lì)作為目標(biāo)是強(qiáng)化學(xué)習(xí)的最大特征之一。

3.3 Returns and Episodes

如何把學(xué)習(xí)目標(biāo)：最大化獎(jiǎng)勵(lì)做到呢？這里，形式化的定義是必不可少的，如果時(shí)間 $t$ 以后得到的一系列獎(jiǎng)勵(lì)記為 $R_{t+1},R_{t+2},R_{t+3}.....$ 的話， $t$ 之后我們期望得到的回報(bào)記為 $G_t$ ,這是關(guān)于一系列獎(jiǎng)勵(lì)的一個(gè)函數(shù)，簡(jiǎn)單看作全部相加的過程的話，我們得到：

這里的

T

是最后的時(shí)間點(diǎn)。
這里，任務(wù)可以分為

episodic task：如迷宮游戲；每一個(gè)episode的結(jié)束狀態(tài)稱為terminal state，很多個(gè)episode組成這樣一個(gè)任務(wù)。
continuing task:如機(jī)器人，這樣的任務(wù)有很長(zhǎng)的生命周期，時(shí)間點(diǎn)幾乎無限，所以如何衡量累計(jì)獎(jiǎng)勵(lì)呢？我們引入discounting的概念。
discounting： $\gamma$ ，看公式：

原來 $\gamma$ 是一個(gè)參數(shù)值，在[0,1]范圍，這樣的話隨著時(shí)間增長(zhǎng)累計(jì)獎(jiǎng)勵(lì)也總是有限范圍，這個(gè)參數(shù)稱為折扣率(discount rate)。
這里看出強(qiáng)化學(xué)習(xí)的一個(gè)重要觀點(diǎn)：連續(xù)時(shí)間點(diǎn)給出的回報(bào)之間是有關(guān)聯(lián)的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

強(qiáng)化學(xué)習(xí)：有限馬爾科夫過程

強(qiáng)化學(xué)習(xí)：有限馬爾科夫過程

FMDs

3.1 Agent-Encvironment Interface

3.2 Goals and Rewards

3.3 Returns and Episodes

3.4 Unified Notation for Episodic and Continuing Tasks

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

強(qiáng)化學(xué)習(xí)：有限馬爾科夫過程

FMDs

3.1 Agent-Encvironment Interface

3.2 Goals and Rewards

3.3 Returns and Episodes

3.4 Unified Notation for Episodic and Continuing Tasks

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av