一般的RL問題需要符合如下條件:
不同的動作導致不同的回報。舉個例子,在迷宮中尋找寶藏,如果往左就能獲得寶藏,往右就什么都得不到。
回報在時間上有延遲。沿用上述的例子,在迷宮中往左時,我們并不是立即知道我們走的就是正確的方向。
某個動作下的回報跟當時的環(huán)境有關。繼續(xù)剛才的例子,往左邊是當前情況下的最佳選擇,在其他情況下就不一定了。
不同的動作導致不同的回報。舉個例子,在迷宮中尋找寶藏,如果往左就能獲得寶藏,往右就什么都得不到。
回報在時間上有延遲。沿用上述的例子,在迷宮中往左時,我們并不是立即知道我們走的就是正確的方向。
某個動作下的回報跟當時的環(huán)境有關。繼續(xù)剛才的例子,往左邊是當前情況下的最佳選擇,在其他情況下就不一定了。