莫煩強(qiáng)化學(xué)習(xí)學(xué)習(xí)筆記1-基礎(chǔ)

強(qiáng)化學(xué)習(xí)方法匯總 (Reinforcement Learning):

(1)Model-free 和 Model-based:

model-free是指agent對(duì)環(huán)境不了解, model-based指agent對(duì)環(huán)境了解。

(2)基于概率 和 基于價(jià)值

image.png

?基于概率的話,有幾率選到概率比較小的action. 基于價(jià)值的話,永遠(yuǎn)選value最大的動(dòng)作。另外基于價(jià)值的無法在連續(xù)動(dòng)作過程中實(shí)現(xiàn)。
?但有一種綜合性的方法。比如在基于概率這邊, 有 Policy Gradients, 在基于價(jià)值這邊有 Q learning, Sarsa 等. 而且我們還能結(jié)合這兩類方法的優(yōu)勢(shì)之處, 創(chuàng)造更牛逼的一種方法, 叫做 Actor-Critic, actor 會(huì)基于概率做出動(dòng)作, 而 critic 會(huì)對(duì)做出的動(dòng)作給出動(dòng)作的價(jià)值, 這樣就在原有的 policy gradients 上加速了學(xué)習(xí)過程.

(3)回合更新 和 單步更新
image.png

?回合更新指的是游戲開始后, 我們要等待游戲結(jié)束, 然后再總結(jié)這一回合中的所有轉(zhuǎn)折點(diǎn), 再更新我們的行為準(zhǔn)則. 而單步更新則是在游戲進(jìn)行中每一步都在更新, 不用等待游戲的結(jié)束, 這樣我們就能邊玩邊學(xué)習(xí)了.
?再來說說方法, Monte-carlo learning 和基礎(chǔ)版的 policy gradients 等 都是回合更新制, Qlearning, Sarsa, 升級(jí)版的 policy gradients 等都是單步更新制. 因?yàn)閱尾礁赂行? 所以現(xiàn)在大多方法都是基于單步更新. 比如有的強(qiáng)化學(xué)習(xí)問題并不屬于回合問題.

(4)在線學(xué)習(xí) 和 離線學(xué)習(xí)
image.png

最后一種分類方式是 在線學(xué)習(xí)和離線學(xué)習(xí), 所謂在線學(xué)習(xí), 就是指我必須本人在場(chǎng), 并且一定是本人邊玩邊學(xué)習(xí)。而離線學(xué)習(xí)是你可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學(xué)習(xí)別人的行為準(zhǔn)則。
在線學(xué)習(xí)有Sarsa, Sarsa lambda, 最典型的離線學(xué)習(xí)就是 Q learning, Deep-Q-Network.

強(qiáng)化學(xué)習(xí)的解法的通用框架: 馬爾克夫模型.

首先,我們要正式定義強(qiáng)化學(xué)習(xí)問題的框架,然后列出可能的解決方法。

馬爾可夫決策過程:

在強(qiáng)化學(xué)習(xí)中定義解法的數(shù)學(xué)框架叫做馬爾可夫決策過程(Markov Decision Process)。 它被設(shè)計(jì)為:

一系列狀態(tài)的集合(Set of states),S
一系列行動(dòng)的集合(Set of actions),A
獎(jiǎng)勵(lì)函數(shù)(Reward function),R
策略(Policy),π
價(jià)值(Valu),V

我們必須采取行動(dòng)(A)從我們的開始狀態(tài)過渡到我們的結(jié)束狀態(tài)(S)。我們采取的每個(gè)行動(dòng)將獲得獎(jiǎng)勵(lì)(R)。 我們的行為可以導(dǎo)致正獎(jiǎng)勵(lì)或負(fù)獎(jiǎng)勵(lì)。

我們采取的行動(dòng)的集合(A)定義了我們的策略(π),我們得到的獎(jiǎng)勵(lì)(R)定義了我們的價(jià)值(V)。 我們?cè)谶@里的任務(wù)是通過選擇正確的策略來最大化我們的獎(jiǎng)勵(lì)。 所以我們必須對(duì)時(shí)間t的所有可能的S值最大化。

參考文章

[1]https://github.com/aikorea/awesome-rl
[2]入門指南 | 人工智能的新希望——強(qiáng)化學(xué)習(xí)全解https://36kr.com/p/5064302.html
[3]馬爾科夫決策過程http://www.itdecent.cn/p/295d7a8ebe48

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容