什么是SARSA SARSA算法的全稱是State Action Reward State Action,屬于時序差分學(xué)習(xí)算法的一種,其綜合了動...
投稿
收錄了2篇文章 · 1人關(guān)注
什么是SARSA SARSA算法的全稱是State Action Reward State Action,屬于時序差分學(xué)習(xí)算法的一種,其綜合了動...
貝爾曼方程與兩類值函數(shù) 為了評估一個策略的期望回報,我們定義兩個值函數(shù):狀態(tài)值函數(shù)和狀態(tài)-動作值函數(shù)。 狀態(tài)值函數(shù) 折扣率的引入 有終止?fàn)顟B(tài)的情...