2022-05-01 DQN要點(diǎn)筆記

Q-Learning

  • 行是state,列是action
  • off-policy算法
  • ε-greedy貪心算法
  • Q更新公式如下:


    圖片.png

SARSA

  • on-policy的更新方式,它的行動(dòng)策略和評(píng)估策略都是ε-greedy策略
  • 先執(zhí)行action,再根據(jù)reward更新Q-table

DQN

  • 使用DNN模擬Q-learning的Q-Table輸出Q(s,a)結(jié)果
  • Q(s, a)表示每個(gè)state + action的pair對(duì)的預(yù)期收益,此處將
  • \pi(s)表示在某個(gè)狀態(tài)s下,采取的action策略函數(shù),即所謂的Actor
  • 在訓(xùn)練過(guò)程中,先固定Actor,開(kāi)始行動(dòng),同時(shí)更新Q(s, a)函數(shù)
  • 再根據(jù)更新后的Q(s, a)函數(shù),調(diào)整行動(dòng)策略\pi(s),擬合函數(shù)為
    Q(s_t, a_t) = r_t + Q(s_{t+1}, \pi_(s_{t+1}))
  • 經(jīng)驗(yàn)回放:
    通過(guò)隨機(jī)采樣打斷經(jīng)驗(yàn)之間的關(guān)聯(lián)性
  • Dueling-DQN
    拆分模型
    Q = V + A
    共用Deep部分,在tuning的位置分別預(yù)估V和A
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容