2022-05-01 DQN要點(diǎn)筆記

Q-Learning

行是state，列是action
off-policy算法
ε-greedy貪心算法
Q更新公式如下：

圖片.png

SARSA

on-policy的更新方式，它的行動(dòng)策略和評(píng)估策略都是ε-greedy策略
先執(zhí)行action，再根據(jù)reward更新Q-table

DQN

使用DNN模擬Q-learning的Q-Table輸出Q(s,a)結(jié)果
Q(s, a)表示每個(gè)state + action的pair對(duì)的預(yù)期收益，此處將
$\pi（s）$ 表示在某個(gè)狀態(tài)s下，采取的action策略函數(shù)，即所謂的Actor
在訓(xùn)練過(guò)程中，先固定Actor，開(kāi)始行動(dòng)，同時(shí)更新Q（s, a）函數(shù)
再根據(jù)更新后的Q(s, a)函數(shù)，調(diào)整行動(dòng)策略 $\pi（s）$ ，擬合函數(shù)為
$Q(s_t, a_t) = r_t + Q(s_{t+1}, \pi_(s_{t+1}))$
經(jīng)驗(yàn)回放：
通過(guò)隨機(jī)采樣打斷經(jīng)驗(yàn)之間的關(guān)聯(lián)性
Dueling-DQN
拆分模型
Q = V + A
共用Deep部分，在tuning的位置分別預(yù)估V和A

最后編輯于：2022.05.08 20:40:06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2022-05-01 DQN要點(diǎn)筆記

2022-05-01 DQN要點(diǎn)筆記

Q-Learning

SARSA

DQN

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2022-05-01 DQN要點(diǎn)筆記

Q-Learning

SARSA

DQN

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av