RL 中Q learning 與 Sarsa 區(qū)別

Q Learning


Q learning 在做S2 action 分析時(shí)候, Q learn 會(huì)先假設(shè)action,但最終計(jì)算后不一定實(shí)施該action




Sarsa

確實(shí)直接選擇(S2,A2)




Q Learning 過(guò)于激進(jìn),,選擇最優(yōu),,看Maze 例子 就能很清楚的看到兩個(gè)算法的實(shí)際不同。。

人工智能技術(shù)文章list

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一. 增強(qiáng)學(xué)習(xí)簡(jiǎn)介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類(lèi):監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,691評(píng)論 0 25
  • 機(jī)器學(xué)習(xí)(Machine Learning)&深度學(xué)習(xí)(Deep Learning)資料(Chapter 1) 注...
    Albert陳凱閱讀 22,844評(píng)論 9 477
  • 花苞多寂寞,花開(kāi)引蜂奪。年年歲歲花香客,待到花瓣落。 我憐花一現(xiàn),花覷我無(wú)言。歲歲年年花不重,人同花不同。
    杜靈犀閱讀 581評(píng)論 0 0
  • 窗外陽(yáng)光正好。 終于明白國(guó)家為什么要在10月份設(shè)置假期了。這個(gè)季節(jié)的天很藍(lán),這個(gè)季節(jié)的水很綠,這個(gè)季節(jié)的人心情正好...
    站直慢慢走閱讀 333評(píng)論 0 0
  • 這年頭,居然還能出現(xiàn)這種,在周末放都冷到爆的好片。 周五傍晚這一場(chǎng),全場(chǎng)就兩人…… 表妹,和坐在后排的一個(gè)陌生觀眾...
    Sir電影閱讀 1,927評(píng)論 3 31

友情鏈接更多精彩內(nèi)容