這個(gè)Actor的更新,好像有點(diǎn)問(wèn)題吧,和莫煩老師的方法差異很大,而且我研究了下,好像不等價(jià)哎。
深度強(qiáng)化學(xué)習(xí)-DDPG算法原理和實(shí)現(xiàn)在之前的幾篇文章中,我們介紹了基于價(jià)值Value的強(qiáng)化學(xué)習(xí)算法Deep Q Network。有關(guān)DQN算法以及各種改進(jìn)算法的原理和實(shí)現(xiàn),可以參考之前的文章: 實(shí)戰(zhàn)深度強(qiáng)化學(xué)習(xí)...