第一章 強(qiáng)化學(xué)習(xí)和Markov決策過程

1.1 簡(jiǎn)介

Markov決策過程是決策理論規(guī)劃、強(qiáng)化學(xué)習(xí)及隨機(jī)域中的其他學(xué)習(xí)問題的一種直觀和基本的構(gòu)造模型。在這個(gè)模型中,環(huán)境通過一組狀態(tài)和動(dòng)作建模,可以用來執(zhí)行以控制系統(tǒng)的狀態(tài)。通過這種方式來控制系統(tǒng)的目的是最大化一個(gè)模型的性能標(biāo)準(zhǔn)。事實(shí)上,Markov決策過程已經(jīng)成為時(shí)序決策事實(shí)上的標(biāo)準(zhǔn)方法。


1.2 時(shí)序決策

強(qiáng)化學(xué)習(xí)其目的在于:允許學(xué)習(xí)器學(xué)習(xí)如何在環(huán)境中動(dòng)作,環(huán)境中僅有的反饋由標(biāo)量獎(jiǎng)勵(lì)信號(hào)組成。

學(xué)習(xí)器的目標(biāo)是長(zhǎng)期最大化來自于環(huán)境的獎(jiǎng)勵(lì)信號(hào)。

學(xué)習(xí)器可以在每個(gè)狀態(tài)中選擇一個(gè)動(dòng)作,學(xué)習(xí)器從環(huán)境中獲得的感知是每一個(gè)動(dòng)作后環(huán)境的狀態(tài)加上在每一步獲得的標(biāo)量形式的獎(jiǎng)勵(lì)信號(hào)。

1.2.1 接近時(shí)序決策

(1)基于編程的解決方案

適用于工作在完全已知的且?guī)в泄潭ǖ母怕史植嫉撵o態(tài)問題,對(duì)于系統(tǒng)出現(xiàn)動(dòng)態(tài)變化和新的元素情形不再適用,該解決方案是脆弱的。

(2)基于搜索和規(guī)劃的時(shí)序決策

當(dāng)系統(tǒng)的動(dòng)態(tài)是可知的,學(xué)習(xí)器可以通過搜索和規(guī)劃,從當(dāng)前的狀態(tài)轉(zhuǎn)移到下一個(gè)目標(biāo)狀態(tài)。當(dāng)動(dòng)態(tài)不再確定時(shí),需要引入概率規(guī)劃算法。

(3)學(xué)習(xí)

優(yōu)點(diǎn)a)系統(tǒng)設(shè)計(jì)師不需要考慮所有情形;b)學(xué)習(xí)可以應(yīng)對(duì)系統(tǒng)的不確定性、基于獎(jiǎng)勵(lì)定義目標(biāo)和不斷變化的環(huán)境;c)學(xué)習(xí)是解決每一個(gè)狀態(tài)的問題,而不僅僅是從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)的規(guī)劃。

1.2.2 在線學(xué)習(xí)與離線學(xué)習(xí)

在線學(xué)習(xí)是直接在問題的實(shí)例上進(jìn)行學(xué)習(xí),但這樣需要大量的真實(shí)樣本,顯然很多時(shí)候難以實(shí)現(xiàn),并且可能帶來巨大成本;

離線學(xué)習(xí)使用環(huán)境的模擬器作為一種廉價(jià)的方式獲得訓(xùn)練樣本,這是一個(gè)安全且快速的學(xué)習(xí)方式,但不能完全模擬真實(shí)環(huán)境。

1.2.3 貢獻(xiàn)分配

時(shí)間性貢獻(xiàn)分配問題和結(jié)構(gòu)性貢獻(xiàn)分配問題

1.2.4 探索-運(yùn)用的平衡

學(xué)習(xí)器必須通過執(zhí)行動(dòng)作和感知?jiǎng)幼鹘Y(jié)果的方式來探索環(huán)境,即對(duì)環(huán)境的影響和所獲得的獎(jiǎng)勵(lì)。

為了學(xué)習(xí),學(xué)習(xí)器必須探索,但是為了更好的性能,學(xué)習(xí)器必須運(yùn)用已經(jīng)知道的知識(shí)。平衡探索和已有知識(shí)的運(yùn)用。

1.2.5 反饋、目標(biāo)和性能

在強(qiáng)化學(xué)習(xí)中,信息來自環(huán)境的反饋,這是評(píng)估性的而不是指導(dǎo)性的,因?yàn)榄h(huán)境提供的評(píng)估信息是有限的,所以學(xué)習(xí)器必須要更加了努力地評(píng)估和改進(jìn)動(dòng)作。

當(dāng)獎(jiǎng)勵(lì)函數(shù)與正確的目標(biāo)一致,或者策略解決的是正確的問題,所有提出的學(xué)習(xí)問題都會(huì)有一些最優(yōu)策略。

1.2.6 表達(dá)

——表達(dá)什么和如何表達(dá)?

可以或應(yīng)該表達(dá)的關(guān)鍵組件是環(huán)境動(dòng)態(tài)模型,獎(jiǎng)勵(lì)的分布,價(jià)值函數(shù)和策略。


1.3 正式的框架

本章1.1節(jié)描述的強(qiáng)化學(xué)習(xí)問題的元素可以通過馬爾科夫決策過程的框架來正則化。

狀態(tài)、動(dòng)作、策略和使用不同類型的最優(yōu)準(zhǔn)則確定的學(xué)習(xí)目標(biāo)

1.3.1 Markov決策過程

——狀態(tài)、動(dòng)作、轉(zhuǎn)換函數(shù)、獎(jiǎng)勵(lì)方程

1.3.1.1 狀態(tài)

在有些情況下,有必要區(qū)分合法和非法狀態(tài),某些特征組合,可能不能描述在問題問題中實(shí)際存在狀態(tài)

1.3.1.2 動(dòng)作

動(dòng)作可以用于控制系統(tǒng)狀態(tài),顯然不一定所有的動(dòng)作都可以應(yīng)用于所有的狀態(tài),有些動(dòng)作無法運(yùn)用于某些狀態(tài),而這些動(dòng)作可以通過一個(gè)先決條件方程來建模S\times A \rightarrow \left\{ TRUE,FALSE \right\}

1.3.1.3 轉(zhuǎn)換函數(shù)

通過將動(dòng)作a \in A運(yùn)用于狀態(tài)s \in S,基于可能的轉(zhuǎn)換集合的概率分布,學(xué)習(xí)系統(tǒng)能夠完成從當(dāng)前狀態(tài)s到縣狀態(tài)t的轉(zhuǎn)換。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容