超碰97人妻在线,99riav1

1.1 簡(jiǎn)介

Markov決策過程是決策理論規(guī)劃、強(qiáng)化學(xué)習(xí)及隨機(jī)域中的其他學(xué)習(xí)問題的一種直觀和基本的構(gòu)造模型。在這個(gè)模型中，環(huán)境通過一組狀態(tài)和動(dòng)作建模，可以用來執(zhí)行以控制系統(tǒng)的狀態(tài)。通過這種方式來控制系統(tǒng)的目的是最大化一個(gè)模型的性能標(biāo)準(zhǔn)。事實(shí)上，Markov決策過程已經(jīng)成為時(shí)序決策事實(shí)上的標(biāo)準(zhǔn)方法。

1.2 時(shí)序決策

強(qiáng)化學(xué)習(xí)其目的在于：允許學(xué)習(xí)器學(xué)習(xí)如何在環(huán)境中動(dòng)作，環(huán)境中僅有的反饋由標(biāo)量獎(jiǎng)勵(lì)信號(hào)組成。

學(xué)習(xí)器的目標(biāo)是長(zhǎng)期最大化來自于環(huán)境的獎(jiǎng)勵(lì)信號(hào)。

學(xué)習(xí)器可以在每個(gè)狀態(tài)中選擇一個(gè)動(dòng)作，學(xué)習(xí)器從環(huán)境中獲得的感知是每一個(gè)動(dòng)作后環(huán)境的狀態(tài)加上在每一步獲得的標(biāo)量形式的獎(jiǎng)勵(lì)信號(hào)。

1.2.1 接近時(shí)序決策

（1）基于編程的解決方案

適用于工作在完全已知的且?guī)в泄潭ǖ母怕史植嫉撵o態(tài)問題，對(duì)于系統(tǒng)出現(xiàn)動(dòng)態(tài)變化和新的元素情形不再適用，該解決方案是脆弱的。

（2）基于搜索和規(guī)劃的時(shí)序決策

當(dāng)系統(tǒng)的動(dòng)態(tài)是可知的，學(xué)習(xí)器可以通過搜索和規(guī)劃，從當(dāng)前的狀態(tài)轉(zhuǎn)移到下一個(gè)目標(biāo)狀態(tài)。當(dāng)動(dòng)態(tài)不再確定時(shí)，需要引入概率規(guī)劃算法。

（3）學(xué)習(xí)

優(yōu)點(diǎn)a）系統(tǒng)設(shè)計(jì)師不需要考慮所有情形；b）學(xué)習(xí)可以應(yīng)對(duì)系統(tǒng)的不確定性、基于獎(jiǎng)勵(lì)定義目標(biāo)和不斷變化的環(huán)境；c）學(xué)習(xí)是解決每一個(gè)狀態(tài)的問題，而不僅僅是從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)的規(guī)劃。

1.2.2 在線學(xué)習(xí)與離線學(xué)習(xí)

在線學(xué)習(xí)是直接在問題的實(shí)例上進(jìn)行學(xué)習(xí)，但這樣需要大量的真實(shí)樣本，顯然很多時(shí)候難以實(shí)現(xiàn)，并且可能帶來巨大成本；

離線學(xué)習(xí)使用環(huán)境的模擬器作為一種廉價(jià)的方式獲得訓(xùn)練樣本，這是一個(gè)安全且快速的學(xué)習(xí)方式，但不能完全模擬真實(shí)環(huán)境。

1.2.3 貢獻(xiàn)分配

時(shí)間性貢獻(xiàn)分配問題和結(jié)構(gòu)性貢獻(xiàn)分配問題

1.2.4 探索-運(yùn)用的平衡

學(xué)習(xí)器必須通過執(zhí)行動(dòng)作和感知?jiǎng)幼鹘Y(jié)果的方式來探索環(huán)境，即對(duì)環(huán)境的影響和所獲得的獎(jiǎng)勵(lì)。

為了學(xué)習(xí)，學(xué)習(xí)器必須探索，但是為了更好的性能，學(xué)習(xí)器必須運(yùn)用已經(jīng)知道的知識(shí)。平衡探索和已有知識(shí)的運(yùn)用。

1.2.5 反饋、目標(biāo)和性能

在強(qiáng)化學(xué)習(xí)中，信息來自環(huán)境的反饋，這是評(píng)估性的而不是指導(dǎo)性的，因?yàn)榄h(huán)境提供的評(píng)估信息是有限的，所以學(xué)習(xí)器必須要更加了努力地評(píng)估和改進(jìn)動(dòng)作。

當(dāng)獎(jiǎng)勵(lì)函數(shù)與正確的目標(biāo)一致，或者策略解決的是正確的問題，所有提出的學(xué)習(xí)問題都會(huì)有一些最優(yōu)策略。

1.2.6 表達(dá)

——表達(dá)什么和如何表達(dá)？

可以或應(yīng)該表達(dá)的關(guān)鍵組件是環(huán)境動(dòng)態(tài)模型，獎(jiǎng)勵(lì)的分布，價(jià)值函數(shù)和策略。

1.3 正式的框架

本章1.1節(jié)描述的強(qiáng)化學(xué)習(xí)問題的元素可以通過馬爾科夫決策過程的框架來正則化。

狀態(tài)、動(dòng)作、策略和使用不同類型的最優(yōu)準(zhǔn)則確定的學(xué)習(xí)目標(biāo)

1.3.1 Markov決策過程

——狀態(tài)、動(dòng)作、轉(zhuǎn)換函數(shù)、獎(jiǎng)勵(lì)方程

1.3.1.1 狀態(tài)

在有些情況下，有必要區(qū)分合法和非法狀態(tài)，某些特征組合，可能不能描述在問題問題中實(shí)際存在狀態(tài)

1.3.1.2 動(dòng)作

動(dòng)作可以用于控制系統(tǒng)狀態(tài)，顯然不一定所有的動(dòng)作都可以應(yīng)用于所有的狀態(tài)，有些動(dòng)作無法運(yùn)用于某些狀態(tài)，而這些動(dòng)作可以通過一個(gè)先決條件方程來建模 $S\times A \rightarrow \left\{ TRUE,FALSE \right\}$

1.3.1.3 轉(zhuǎn)換函數(shù)

通過將動(dòng)作 $a \in A$ 運(yùn)用于狀態(tài) $s \in S$ ，基于可能的轉(zhuǎn)換集合的概率分布，學(xué)習(xí)系統(tǒng)能夠完成從當(dāng)前狀態(tài) $s$ 到縣狀態(tài) $t$ 的轉(zhuǎn)換。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第一章強(qiáng)化學(xué)習(xí)和Markov決策過程

第一章強(qiáng)化學(xué)習(xí)和Markov決策過程

1.1 簡(jiǎn)介

1.2 時(shí)序決策

1.2.1 接近時(shí)序決策

1.2.2 在線學(xué)習(xí)與離線學(xué)習(xí)

1.2.3 貢獻(xiàn)分配

1.2.4 探索-運(yùn)用的平衡

1.2.5 反饋、目標(biāo)和性能

1.2.6 表達(dá)

1.3 正式的框架

1.3.1 Markov決策過程

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第一章 強(qiáng)化學(xué)習(xí)和Markov決策過程

1.1 簡(jiǎn)介

1.2 時(shí)序決策

1.2.1 接近時(shí)序決策

1.2.2 在線學(xué)習(xí)與離線學(xué)習(xí)

1.2.3 貢獻(xiàn)分配

1.2.4 探索-運(yùn)用的平衡

1.2.5 反饋、目標(biāo)和性能

1.2.6 表達(dá)

1.3 正式的框架

1.3.1 Markov決策過程

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第一章強(qiáng)化學(xué)習(xí)和Markov決策過程