Q Learning

Q learning 在做S2 action 分析時(shí)候, Q learn 會(huì)先假設(shè)action,但最終計(jì)算后不一定實(shí)施該action
Sarsa

確實(shí)直接選擇(S2,A2)

Q Learning 過(guò)于激進(jìn),,選擇最優(yōu),,看Maze 例子 就能很清楚的看到兩個(gè)算法的實(shí)際不同。。
Q Learning
Sarsa
確實(shí)直接選擇(S2,A2)
Q Learning 過(guò)于激進(jìn),,選擇最優(yōu),,看Maze 例子 就能很清楚的看到兩個(gè)算法的實(shí)際不同。。