Q-Learning
- 行是state,列是action
- off-policy算法
- ε-greedy貪心算法
-
Q更新公式如下:
圖片.png
SARSA
- on-policy的更新方式,它的行動(dòng)策略和評(píng)估策略都是ε-greedy策略
- 先執(zhí)行action,再根據(jù)reward更新Q-table
DQN
- 使用DNN模擬Q-learning的Q-Table輸出Q(s,a)結(jié)果
- Q(s, a)表示每個(gè)state + action的pair對(duì)的預(yù)期收益,此處將
-
表示在某個(gè)狀態(tài)s下,采取的action策略函數(shù),即所謂的Actor
- 在訓(xùn)練過(guò)程中,先固定Actor,開(kāi)始行動(dòng),同時(shí)更新Q(s, a)函數(shù)
- 再根據(jù)更新后的Q(s, a)函數(shù),調(diào)整行動(dòng)策略
,擬合函數(shù)為
- 經(jīng)驗(yàn)回放:
通過(guò)隨機(jī)采樣打斷經(jīng)驗(yàn)之間的關(guān)聯(lián)性 - Dueling-DQN
拆分模型
Q = V + A
共用Deep部分,在tuning的位置分別預(yù)估V和A
