99日99干99色,97就爱干,国产精选三级视频

強(qiáng)化學(xué)習(xí)方法匯總 (Reinforcement Learning)：

(1)Model-free 和 Model-based:

model-free是指agent對(duì)環(huán)境不了解， model-based指agent對(duì)環(huán)境了解。

(2)基于概率和基于價(jià)值

image.png

?基于概率的話，有幾率選到概率比較小的action. 基于價(jià)值的話，永遠(yuǎn)選value最大的動(dòng)作。另外基于價(jià)值的無法在連續(xù)動(dòng)作過程中實(shí)現(xiàn)。
?但有一種綜合性的方法。比如在基于概率這邊, 有 Policy Gradients, 在基于價(jià)值這邊有 Q learning, Sarsa 等. 而且我們還能結(jié)合這兩類方法的優(yōu)勢(shì)之處, 創(chuàng)造更牛逼的一種方法, 叫做 Actor-Critic, actor 會(huì)基于概率做出動(dòng)作, 而 critic 會(huì)對(duì)做出的動(dòng)作給出動(dòng)作的價(jià)值, 這樣就在原有的 policy gradients 上加速了學(xué)習(xí)過程.

(3)回合更新和單步更新

image.png

?回合更新指的是游戲開始后, 我們要等待游戲結(jié)束, 然后再總結(jié)這一回合中的所有轉(zhuǎn)折點(diǎn), 再更新我們的行為準(zhǔn)則. 而單步更新則是在游戲進(jìn)行中每一步都在更新, 不用等待游戲的結(jié)束, 這樣我們就能邊玩邊學(xué)習(xí)了.
?再來說說方法, Monte-carlo learning 和基礎(chǔ)版的 policy gradients 等都是回合更新制, Qlearning, Sarsa, 升級(jí)版的 policy gradients 等都是單步更新制. 因?yàn)閱尾礁赂行? 所以現(xiàn)在大多方法都是基于單步更新. 比如有的強(qiáng)化學(xué)習(xí)問題并不屬于回合問題.

(4)在線學(xué)習(xí) 和離線學(xué)習(xí)

image.png

最后一種分類方式是在線學(xué)習(xí)和離線學(xué)習(xí), 所謂在線學(xué)習(xí), 就是指我必須本人在場(chǎng), 并且一定是本人邊玩邊學(xué)習(xí)。而離線學(xué)習(xí)是你可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學(xué)習(xí)別人的行為準(zhǔn)則。
在線學(xué)習(xí)有Sarsa, Sarsa lambda, 最典型的離線學(xué)習(xí)就是 Q learning, Deep-Q-Network.

強(qiáng)化學(xué)習(xí)的解法的通用框架: 馬爾克夫模型.

首先，我們要正式定義強(qiáng)化學(xué)習(xí)問題的框架，然后列出可能的解決方法。

馬爾可夫決策過程：

在強(qiáng)化學(xué)習(xí)中定義解法的數(shù)學(xué)框架叫做馬爾可夫決策過程（Markov Decision Process）。它被設(shè)計(jì)為：

一系列狀態(tài)的集合（Set of states），S
一系列行動(dòng)的集合（Set of actions），A
獎(jiǎng)勵(lì)函數(shù)（Reward function），R
策略（Policy），π
價(jià)值（Valu），V

我們必須采取行動(dòng)（A）從我們的開始狀態(tài)過渡到我們的結(jié)束狀態(tài)（S）。我們采取的每個(gè)行動(dòng)將獲得獎(jiǎng)勵(lì)（R）。我們的行為可以導(dǎo)致正獎(jiǎng)勵(lì)或負(fù)獎(jiǎng)勵(lì)。

我們采取的行動(dòng)的集合（A）定義了我們的策略（π），我們得到的獎(jiǎng)勵(lì)（R）定義了我們的價(jià)值（V）。我們?cè)谶@里的任務(wù)是通過選擇正確的策略來最大化我們的獎(jiǎng)勵(lì)。所以我們必須對(duì)時(shí)間t的所有可能的S值最大化。

參考文章

[1]https://github.com/aikorea/awesome-rl
[2]入門指南 | 人工智能的新希望——強(qiáng)化學(xué)習(xí)全解https://36kr.com/p/5064302.html
[3]馬爾科夫決策過程http://www.itdecent.cn/p/295d7a8ebe48

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

莫煩強(qiáng)化學(xué)習(xí)學(xué)習(xí)筆記1-基礎(chǔ)

莫煩強(qiáng)化學(xué)習(xí)學(xué)習(xí)筆記1-基礎(chǔ)

強(qiáng)化學(xué)習(xí)方法匯總 (Reinforcement Learning)：

(1)Model-free 和 Model-based:

(2)基于概率和基于價(jià)值

(3)回合更新和單步更新

(4)在線學(xué)習(xí) 和離線學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的解法的通用框架: 馬爾克夫模型.

參考文章

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

莫煩強(qiáng)化學(xué)習(xí)學(xué)習(xí)筆記1-基礎(chǔ)

強(qiáng)化學(xué)習(xí)方法匯總 (Reinforcement Learning)：

(1)Model-free 和 Model-based:

(2)基于概率 和 基于價(jià)值

(3)回合更新 和 單步更新

(4)在線學(xué)習(xí) 和 離線學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的解法的通用框架: 馬爾克夫模型.

參考文章

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

(2)基于概率和基于價(jià)值

(3)回合更新和單步更新

(4)在線學(xué)習(xí) 和離線學(xué)習(xí)