

Q Learn 也是一個(gè)決策過程,,Q表使用:

Q表的update運(yùn)行邏輯(沒有懂細(xì)節(jié))

R為到此時(shí)獲取到的獎(jiǎng)勵(lì)值,例如棒棒糖。。r 例如0.9
S2 時(shí)刻的決策需要等到新的Q(s1,a2)計(jì)算完后
具體的算法邏輯?


和現(xiàn)實(shí)中一樣,,對(duì)很遠(yuǎn)的獎(jiǎng)勵(lì),,人們期望不一樣,都會(huì)打折扣。。
Q Learn 也是一個(gè)決策過程,,Q表使用:
Q表的update運(yùn)行邏輯(沒有懂細(xì)節(jié))
R為到此時(shí)獲取到的獎(jiǎng)勵(lì)值,例如棒棒糖。。r 例如0.9
S2 時(shí)刻的決策需要等到新的Q(s1,a2)計(jì)算完后
具體的算法邏輯?
和現(xiàn)實(shí)中一樣,,對(duì)很遠(yuǎn)的獎(jiǎng)勵(lì),,人們期望不一樣,都會(huì)打折扣。。