強(qiáng)化學(xué)習(xí) Q Learning


Q Learn 也是一個(gè)決策過程,,Q表使用:

Q表的update運(yùn)行邏輯(沒有懂細(xì)節(jié))

R為到此時(shí)獲取到的獎(jiǎng)勵(lì)值,例如棒棒糖。。r 例如0.9

S2 時(shí)刻的決策需要等到新的Q(s1,a2)計(jì)算完后


具體的算法邏輯?



和現(xiàn)實(shí)中一樣,,對(duì)很遠(yuǎn)的獎(jiǎng)勵(lì),,人們期望不一樣,都會(huì)打折扣。。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一. 增強(qiáng)學(xué)習(xí)簡介 1.1 什么是增強(qiáng)學(xué)習(xí)? 機(jī)器學(xué)習(xí)的算法可以分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。 增強(qiáng)學(xué)...
    阿阿阿阿毛閱讀 31,701評(píng)論 0 25
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法,類相關(guān)的語法,內(nèi)部類的語法,繼承相關(guān)的語法,異常的語法,線程的語...
    子非魚_t_閱讀 34,822評(píng)論 18 399
  • 機(jī)器學(xué)習(xí)(Machine Learning)&深度學(xué)習(xí)(Deep Learning)資料(Chapter 1) 注...
    Albert陳凱閱讀 22,873評(píng)論 9 477
  • 我站在樹旁, 那是一棵開滿希望的樹, 我希望, 希望你從樹旁走過, 因?yàn)椋?那是我前世許下的承諾。 我站在路燈腳下...
    顏小蕾閱讀 438評(píng)論 2 4
  • 大約12年前的北京初春,我的一位同事,也是公司里的好友、酒友、可以交心的朋友,對(duì)我說,他想寫一本書,書名叫<<坑...
    it803閱讀 433評(píng)論 0 8

友情鏈接更多精彩內(nèi)容