強(qiáng)化學(xué)習(xí)方法匯總 (Reinforcement Learning):
(1)Model-free 和 Model-based:
model-free是指agent對(duì)環(huán)境不了解, model-based指agent對(duì)環(huán)境了解。
(2)基于概率 和 基于價(jià)值

?基于概率的話,有幾率選到概率比較小的action. 基于價(jià)值的話,永遠(yuǎn)選value最大的動(dòng)作。另外基于價(jià)值的無法在連續(xù)動(dòng)作過程中實(shí)現(xiàn)。
?但有一種綜合性的方法。比如在基于概率這邊, 有 Policy Gradients, 在基于價(jià)值這邊有 Q learning, Sarsa 等. 而且我們還能結(jié)合這兩類方法的優(yōu)勢(shì)之處, 創(chuàng)造更牛逼的一種方法, 叫做 Actor-Critic, actor 會(huì)基于概率做出動(dòng)作, 而 critic 會(huì)對(duì)做出的動(dòng)作給出動(dòng)作的價(jià)值, 這樣就在原有的 policy gradients 上加速了學(xué)習(xí)過程.
(3)回合更新 和 單步更新

?回合更新指的是游戲開始后, 我們要等待游戲結(jié)束, 然后再總結(jié)這一回合中的所有轉(zhuǎn)折點(diǎn), 再更新我們的行為準(zhǔn)則. 而單步更新則是在游戲進(jìn)行中每一步都在更新, 不用等待游戲的結(jié)束, 這樣我們就能邊玩邊學(xué)習(xí)了.
?再來說說方法, Monte-carlo learning 和基礎(chǔ)版的 policy gradients 等 都是回合更新制, Qlearning, Sarsa, 升級(jí)版的 policy gradients 等都是單步更新制. 因?yàn)閱尾礁赂行? 所以現(xiàn)在大多方法都是基于單步更新. 比如有的強(qiáng)化學(xué)習(xí)問題并不屬于回合問題.
(4)在線學(xué)習(xí) 和 離線學(xué)習(xí)

最后一種分類方式是 在線學(xué)習(xí)和離線學(xué)習(xí), 所謂在線學(xué)習(xí), 就是指我必須本人在場(chǎng), 并且一定是本人邊玩邊學(xué)習(xí)。而離線學(xué)習(xí)是你可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學(xué)習(xí)別人的行為準(zhǔn)則。
在線學(xué)習(xí)有Sarsa, Sarsa lambda, 最典型的離線學(xué)習(xí)就是 Q learning, Deep-Q-Network.
強(qiáng)化學(xué)習(xí)的解法的通用框架: 馬爾克夫模型.
首先,我們要正式定義強(qiáng)化學(xué)習(xí)問題的框架,然后列出可能的解決方法。
馬爾可夫決策過程:
在強(qiáng)化學(xué)習(xí)中定義解法的數(shù)學(xué)框架叫做馬爾可夫決策過程(Markov Decision Process)。 它被設(shè)計(jì)為:
一系列狀態(tài)的集合(Set of states),S
一系列行動(dòng)的集合(Set of actions),A
獎(jiǎng)勵(lì)函數(shù)(Reward function),R
策略(Policy),π
價(jià)值(Valu),V
我們必須采取行動(dòng)(A)從我們的開始狀態(tài)過渡到我們的結(jié)束狀態(tài)(S)。我們采取的每個(gè)行動(dòng)將獲得獎(jiǎng)勵(lì)(R)。 我們的行為可以導(dǎo)致正獎(jiǎng)勵(lì)或負(fù)獎(jiǎng)勵(lì)。
我們采取的行動(dòng)的集合(A)定義了我們的策略(π),我們得到的獎(jiǎng)勵(lì)(R)定義了我們的價(jià)值(V)。 我們?cè)谶@里的任務(wù)是通過選擇正確的策略來最大化我們的獎(jiǎng)勵(lì)。 所以我們必須對(duì)時(shí)間t的所有可能的S值最大化。
參考文章
[1]https://github.com/aikorea/awesome-rl
[2]入門指南 | 人工智能的新希望——強(qiáng)化學(xué)習(xí)全解https://36kr.com/p/5064302.html
[3]馬爾科夫決策過程http://www.itdecent.cn/p/295d7a8ebe48