強(qiáng)化學(xué)習(xí):有限馬爾科夫過程

FMDs

FMDs(finite Markov decision processes):對(duì)在一種連續(xù)性過程中不斷做出決策的形式化,也是強(qiáng)化學(xué)習(xí)問題理想的數(shù)學(xué)形式化:即當(dāng)前的action產(chǎn)生的效果不僅影響即刻獎(jiǎng)勵(lì),而且還會(huì)決定后續(xù)的states,進(jìn)而影響未來的獎(jiǎng)勵(lì)。因此MDPs需要對(duì)即刻獎(jiǎng)勵(lì)延遲獎(jiǎng)勵(lì)tradeoff。

3.1 Agent-Encvironment Interface


如圖,假設(shè)時(shí)間是離散的,
t=0,2,3,.....
在每一個(gè)時(shí)間點(diǎn),agent接受來自于environment產(chǎn)生的state,
A_t \in A(s)
;以此為條件選擇一個(gè)action,
A_t \in \mathcal A(s)
,動(dòng)作的結(jié)果是產(chǎn)生一個(gè)數(shù)值Reward
R_{t+1}\in\mathcal R
,反饋給agent,并出現(xiàn)新的state
S_{t+1}

這樣的一個(gè)MDPs產(chǎn)生的一系列稱為一個(gè)trajectory
S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,.....\tag{3.1}

之所以稱為有限馬爾科夫過程,是因?yàn)闋顟B(tài)集合和動(dòng)作集合、獎(jiǎng)勵(lì)集合都是有限的。
上述過程定義了一個(gè)概率分布:


函數(shù)
p
給出的概率完全描述了有限MDPs。
Markov property:當(dāng)前的state對(duì)未來產(chǎn)生影響的假設(shè)。

有了函數(shù)p,即可計(jì)算:



通常,actions可以視為我們需要學(xué)習(xí)如何去做的任意決策,states可以視為任何對(duì)學(xué)習(xí)做決策有幫助的信息。

通常,不能被agent以任何形式改變的部分都視為屬于Environment。比如Reward總是被視為屬于環(huán)境部分,因?yàn)?strong>Reward的計(jì)算在不能被agent任意改變??傊?,環(huán)境-代理的邊界是代理的絕對(duì)控制極限。

歸納而言,MDPs抽象為三種信號(hào)在agentenvironment之間反復(fù)傳播的模型:

  1. 代理agent做出的選擇:即動(dòng)作。
  2. 代理做出選擇的依據(jù):即外部傳來的狀態(tài)
  3. 代理反復(fù)訓(xùn)練的目標(biāo):即rewards。

3.2 Goals and Rewards

agent的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)(cumulative reward); 用獎(jiǎng)勵(lì)作為目標(biāo)是強(qiáng)化學(xué)習(xí)的最大特征之一。

3.3 Returns and Episodes

如何把學(xué)習(xí)目標(biāo):最大化獎(jiǎng)勵(lì)做到呢?這里,形式化的定義是必不可少的,如果時(shí)間t以后得到的一系列獎(jiǎng)勵(lì)記為R_{t+1},R_{t+2},R_{t+3}.....的話,t之后我們期望得到的回報(bào)記為G_t,這是關(guān)于一系列獎(jiǎng)勵(lì)的一個(gè)函數(shù),簡(jiǎn)單看作全部相加的過程的話,我們得到:


這里的
T
是最后的時(shí)間點(diǎn)。
這里,任務(wù)可以分為

  • episodic task:如迷宮游戲;每一個(gè)episode的結(jié)束狀態(tài)稱為terminal state,很多個(gè)episode組成這樣一個(gè)任務(wù)。

  • continuing task:如機(jī)器人,這樣的任務(wù)有很長(zhǎng)的生命周期,時(shí)間點(diǎn)幾乎無限,所以如何衡量累計(jì)獎(jiǎng)勵(lì)呢?我們引入discounting的概念。
    discounting\gamma,看公式:


    原來\gamma是一個(gè)參數(shù)值,在[0,1]范圍,這樣的話隨著時(shí)間增長(zhǎng)累計(jì)獎(jiǎng)勵(lì)也總是有限范圍,這個(gè)參數(shù)稱為折扣率(discount rate)。

  • 這里看出強(qiáng)化學(xué)習(xí)的一個(gè)重要觀點(diǎn):連續(xù)時(shí)間點(diǎn)給出的回報(bào)之間是有關(guān)聯(lián)的。

3.4 Unified Notation for Episodic and Continuing Tasks

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,683評(píng)論 0 25
  • Agents設(shè)計(jì) 本文翻譯自https://github.com/Unity-Technologies/ml-ag...
    浪尖兒閱讀 6,495評(píng)論 0 6
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,552評(píng)論 19 139
  • 每個(gè)女孩,都有個(gè)公主夢(mèng)。爸媽捧在手心上,有蓬蓬的公主裙,閃亮的小皇冠,圓頭小皮鞋,還有將會(huì)遇到的命中注定的...
    梓梓的小阿梓閱讀 376評(píng)論 0 0

友情鏈接更多精彩內(nèi)容