強化學習RL

一般的RL問題需要符合如下條件:

不同的動作導致不同的回報。舉個例子,在迷宮中尋找寶藏,如果往左就能獲得寶藏,往右就什么都得不到。

回報在時間上有延遲。沿用上述的例子,在迷宮中往左時,我們并不是立即知道我們走的就是正確的方向。

某個動作下的回報跟當時的環(huán)境有關。繼續(xù)剛才的例子,往左邊是當前情況下的最佳選擇,在其他情況下就不一定了。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容