迷霧探險(xiǎn)6 | Q-learning和Sarsa的區(qū)別理解

了解了強(qiáng)化學(xué)習(xí)各種算法及其分類關(guān)系后,就可以開(kāi)始逐個(gè)擊破和提升,在這里,我主要參考B站上莫煩大神的視頻課程學(xué)習(xí),并記錄下自己的一些淺顯的理解。
詳細(xì)文檔可以直接移步莫大神的社區(qū):https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

Q-learning

個(gè)人感覺(jué)Q-learning核心在于一張Q表格,表格縱軸是狀態(tài)值state,橫軸是動(dòng)作值action。機(jī)器在學(xué)習(xí)的過(guò)程中,就是不斷的訓(xùn)練和修正這張表格的參數(shù),使得真正需要做決策的時(shí)候,可以從表格中查詢,在什么state的情況下,做什么action,可能獲得的正面影響更大。

難點(diǎn)在于,怎么訓(xùn)練和更新這種表格。見(jiàn)下圖,當(dāng)我們從s1->a2走到s2的狀態(tài),根據(jù)Q(s2)的最大值,機(jī)器人會(huì)假設(shè)自己走s2->a2這條路,乘以一個(gè)系數(shù)后得到目前s2狀態(tài)下的Q(s1,a2)的現(xiàn)實(shí)值,根據(jù)差距會(huì)對(duì)剛剛走過(guò)的Q(s1,a2)進(jìn)行更新。同樣會(huì)乘以一個(gè)系數(shù)降低一下差距的影響。這個(gè)時(shí)候,在s2的機(jī)器人其實(shí)還沒(méi)有做出任何決策。
Q-learning-訓(xùn)練Q表格.png

所以,經(jīng)過(guò)一輪訓(xùn)練后,表格中的每個(gè)值基本都會(huì)被更新為醬:
Q-learning-經(jīng)過(guò)一輪后表格中的值.png

為了保證機(jī)器人不是每一輪都走同樣的路,會(huì)有一個(gè)ε-greedy的值,保證機(jī)器有一定概率走別的路,對(duì)未知的路進(jìn)行探索。

Q-learning只合適有限的狀態(tài)和步驟的游戲。

算法如下:
Q-learning-algorithm.png

Sarsa

Sarsa和Q-learning的算法極其類似,都是更新Q表格,但是更新Q表的計(jì)算方式不一樣,可以從圖中明顯的看到,主要區(qū)別在于Q現(xiàn)實(shí)的估計(jì),永遠(yuǎn)選擇自己要走的那條路。
Sarsa-訓(xùn)練Q表格.png
  • 第一點(diǎn)區(qū)別在于,Q-learning在s2的時(shí)候無(wú)論如何都選最大的action的Q值作為反饋,但是Sarsa就會(huì)不會(huì)改變主意選最大的,而是就選了自己隨便選的那個(gè)step走走看再更新。
  • 第二點(diǎn)區(qū)別在于:區(qū)別就在a'那里,Q-learning預(yù)選一個(gè)a'但是下一回合并不一定執(zhí)行a'(因?yàn)橄乱换睾螿表就更新了)??墒荢arsa下一回合卻一定會(huì)執(zhí)行a'

可以看到Sarsa是說(shuō)到做到類型,也成為在線學(xué)習(xí)【On-policy】,學(xué)著自己在做的事情。
而Q-learning是說(shuō)到并不一定做到,也稱為離線學(xué)習(xí)【Off-policy】,在更新了Q值之后,勇敢的選擇了最大的那個(gè)Q,然后再更新,不計(jì)后果。

Sarsa算法也可以看出兩個(gè)的差別。
Sarsa-algorithm.png

Sarsa是一種單步更新算法,Sarsa(0),每一步都在更新Q表,但是會(huì)造成一直在不被懲罰的區(qū)域活動(dòng),到達(dá)目標(biāo)的速度可能會(huì)非常慢

因此有了Sarsa(λ),當(dāng)λ=1時(shí)就是回合更新,一個(gè)回合后再更新Q表,獲得獎(jiǎng)勵(lì)后,不僅更新最新的一步的Q值,同時(shí)更新來(lái)時(shí)的路。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,701評(píng)論 0 25
  • 來(lái)源于 Tangowl 的系列文章 https://blog.csdn.net/lipengcn/article/...
    TangowL閱讀 6,241評(píng)論 0 4
  • 我要你 媽媽說(shuō),人多的地方不要去。昨天的世紀(jì)公園因?yàn)樯像R就沒(méi)什么人,所以我聽(tīng)話就去跑了兩圈。估計(jì)是為了爭(zhēng)名逐利,世...
    花園里的皮皮閱讀 329評(píng)論 0 0
  • 潛意識(shí)的六大特征: 1、重復(fù),通過(guò)多次重復(fù)來(lái)刺激潛意識(shí)記憶,這也是我們以往所說(shuō)的形成長(zhǎng)時(shí)記憶的手段。 2、不辯真假...
    陳碧寶閱讀 862評(píng)論 0 1
  • 2018年5月11日 星期五 陰 我非常慶幸自己加入了《花開(kāi)四季淶水二小親子讀寫(xiě)交流群》,聆聽(tīng)了...
    麗燕陽(yáng)光閱讀 197評(píng)論 0 0

友情鏈接更多精彩內(nèi)容