1.1 簡(jiǎn)介
Markov決策過程是決策理論規(guī)劃、強(qiáng)化學(xué)習(xí)及隨機(jī)域中的其他學(xué)習(xí)問題的一種直觀和基本的構(gòu)造模型。在這個(gè)模型中,環(huán)境通過一組狀態(tài)和動(dòng)作建模,可以用來執(zhí)行以控制系統(tǒng)的狀態(tài)。通過這種方式來控制系統(tǒng)的目的是最大化一個(gè)模型的性能標(biāo)準(zhǔn)。事實(shí)上,Markov決策過程已經(jīng)成為時(shí)序決策事實(shí)上的標(biāo)準(zhǔn)方法。
1.2 時(shí)序決策
強(qiáng)化學(xué)習(xí)其目的在于:允許學(xué)習(xí)器學(xué)習(xí)如何在環(huán)境中動(dòng)作,環(huán)境中僅有的反饋由標(biāo)量獎(jiǎng)勵(lì)信號(hào)組成。
學(xué)習(xí)器的目標(biāo)是長(zhǎng)期最大化來自于環(huán)境的獎(jiǎng)勵(lì)信號(hào)。
學(xué)習(xí)器可以在每個(gè)狀態(tài)中選擇一個(gè)動(dòng)作,學(xué)習(xí)器從環(huán)境中獲得的感知是每一個(gè)動(dòng)作后環(huán)境的狀態(tài)加上在每一步獲得的標(biāo)量形式的獎(jiǎng)勵(lì)信號(hào)。
1.2.1 接近時(shí)序決策
(1)基于編程的解決方案
適用于工作在完全已知的且?guī)в泄潭ǖ母怕史植嫉撵o態(tài)問題,對(duì)于系統(tǒng)出現(xiàn)動(dòng)態(tài)變化和新的元素情形不再適用,該解決方案是脆弱的。
(2)基于搜索和規(guī)劃的時(shí)序決策
當(dāng)系統(tǒng)的動(dòng)態(tài)是可知的,學(xué)習(xí)器可以通過搜索和規(guī)劃,從當(dāng)前的狀態(tài)轉(zhuǎn)移到下一個(gè)目標(biāo)狀態(tài)。當(dāng)動(dòng)態(tài)不再確定時(shí),需要引入概率規(guī)劃算法。
(3)學(xué)習(xí)
優(yōu)點(diǎn)a)系統(tǒng)設(shè)計(jì)師不需要考慮所有情形;b)學(xué)習(xí)可以應(yīng)對(duì)系統(tǒng)的不確定性、基于獎(jiǎng)勵(lì)定義目標(biāo)和不斷變化的環(huán)境;c)學(xué)習(xí)是解決每一個(gè)狀態(tài)的問題,而不僅僅是從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)的規(guī)劃。
1.2.2 在線學(xué)習(xí)與離線學(xué)習(xí)
在線學(xué)習(xí)是直接在問題的實(shí)例上進(jìn)行學(xué)習(xí),但這樣需要大量的真實(shí)樣本,顯然很多時(shí)候難以實(shí)現(xiàn),并且可能帶來巨大成本;
離線學(xué)習(xí)使用環(huán)境的模擬器作為一種廉價(jià)的方式獲得訓(xùn)練樣本,這是一個(gè)安全且快速的學(xué)習(xí)方式,但不能完全模擬真實(shí)環(huán)境。
1.2.3 貢獻(xiàn)分配
時(shí)間性貢獻(xiàn)分配問題和結(jié)構(gòu)性貢獻(xiàn)分配問題
1.2.4 探索-運(yùn)用的平衡
學(xué)習(xí)器必須通過執(zhí)行動(dòng)作和感知?jiǎng)幼鹘Y(jié)果的方式來探索環(huán)境,即對(duì)環(huán)境的影響和所獲得的獎(jiǎng)勵(lì)。
為了學(xué)習(xí),學(xué)習(xí)器必須探索,但是為了更好的性能,學(xué)習(xí)器必須運(yùn)用已經(jīng)知道的知識(shí)。平衡探索和已有知識(shí)的運(yùn)用。
1.2.5 反饋、目標(biāo)和性能
在強(qiáng)化學(xué)習(xí)中,信息來自環(huán)境的反饋,這是評(píng)估性的而不是指導(dǎo)性的,因?yàn)榄h(huán)境提供的評(píng)估信息是有限的,所以學(xué)習(xí)器必須要更加了努力地評(píng)估和改進(jìn)動(dòng)作。
當(dāng)獎(jiǎng)勵(lì)函數(shù)與正確的目標(biāo)一致,或者策略解決的是正確的問題,所有提出的學(xué)習(xí)問題都會(huì)有一些最優(yōu)策略。
1.2.6 表達(dá)
——表達(dá)什么和如何表達(dá)?
可以或應(yīng)該表達(dá)的關(guān)鍵組件是環(huán)境動(dòng)態(tài)模型,獎(jiǎng)勵(lì)的分布,價(jià)值函數(shù)和策略。
1.3 正式的框架
本章1.1節(jié)描述的強(qiáng)化學(xué)習(xí)問題的元素可以通過馬爾科夫決策過程的框架來正則化。
狀態(tài)、動(dòng)作、策略和使用不同類型的最優(yōu)準(zhǔn)則確定的學(xué)習(xí)目標(biāo)
1.3.1 Markov決策過程
——狀態(tài)、動(dòng)作、轉(zhuǎn)換函數(shù)、獎(jiǎng)勵(lì)方程
1.3.1.1 狀態(tài)
在有些情況下,有必要區(qū)分合法和非法狀態(tài),某些特征組合,可能不能描述在問題問題中實(shí)際存在狀態(tài)
1.3.1.2 動(dòng)作
動(dòng)作可以用于控制系統(tǒng)狀態(tài),顯然不一定所有的動(dòng)作都可以應(yīng)用于所有的狀態(tài),有些動(dòng)作無法運(yùn)用于某些狀態(tài),而這些動(dòng)作可以通過一個(gè)先決條件方程來建模
1.3.1.3 轉(zhuǎn)換函數(shù)
通過將動(dòng)作運(yùn)用于狀態(tài)
,基于可能的轉(zhuǎn)換集合的概率分布,學(xué)習(xí)系統(tǒng)能夠完成從當(dāng)前狀態(tài)
到縣狀態(tài)
的轉(zhuǎn)換。