《強(qiáng)化學(xué)習(xí)導(dǎo)論》:Eligibility Traces

資格跡是增強(qiáng)學(xué)習(xí)的一個基本的機(jī)制。比如在流行的TD(k)算法中,k涉及到資格跡的使用。幾乎所有的時間差分算法如Q-Learning,Sarsa,都能被結(jié)合資格跡來獲得更有效的方法。

The λ-return

Now we note that a valid update can be done not just toward any n-step return, but toward any average of n-step returns

TD(λ) 算法可以理解為一種特殊的平均n-step更新

the off-line λ-return algorithm

Theλ-return gives us an alternative way of moving smoothly between Monte Carlo and one-step TD methods that can be compared with then-step TD way of Chapter 7.

TD(λ)

TD(λ)是強(qiáng)化學(xué)習(xí)中最古老和應(yīng)用最廣泛的算法之一。這是第一個使用資格追蹤在更理論的前視圖和計(jì)算上更一致的后視圖之間顯示形式關(guān)系的算法。這里,我們將展示經(jīng)驗(yàn),它近似上一節(jié)中提出的離線λ- return算法

TD(λ)以三種方式改進(jìn)了離線λ-返回算法。 首先,它在每一步而不是僅在結(jié)尾處更新權(quán)重向量,因此其估計(jì)可能更快更好。其次,其計(jì)算分布在各個時間段而不是集中于末尾。 第三,它可以應(yīng)用于連續(xù)的問題,而不僅僅是episodic問題。 在本節(jié)中,我們提出了具有函數(shù)逼近的TD(λ)的半梯度版本

In TD(λ), the eligibility trace vector is initialized to zero at the beginning of the episode, is incremented on each time step by the value gradient

n-step Truncated λ-return Methods

In general, we define the truncated λ-return for time t, given data only up to some later horizon,h, as

Redoing Updates: The Online λ-return Algorithm

True Online TD(λ)

Dutch Traces in Monte Carlo Learning

Sarsa(λ)

資格跡擴(kuò)展到 Sarsa

Watkins’s Q(λ) to Tree-Backup(λ)

資格跡擴(kuò)展到 Q-Learning

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容