Semi-gradient Methods
前面?zhèn)€章節(jié)中,我們提到了表格法的異策略,這里稍作修改得到半梯度的異策略算法



對于動作值函數(shù)

可以看到這里并沒有使用重要性采樣,這是因為1-step下可以看出p等于1
在多step的算法中需要重要性采樣

Examples of Off-policy Divergence
第一個例子

如果w=10, 左邊節(jié)點特征值為1,右邊特征值為2,即左邊V(1)=10,右邊V(2)=20
那么從左邊到右邊的動作TD error = 10,所以w= w + 0.1*10 = 11
因為異策略可能只采樣這條軌跡,從而w逐漸變?yōu)闊o窮大
第二個例子


The Deadly Triad
函數(shù)近似、自舉以及異策略會導致Deadly Triad
函數(shù)近似(因為問題的規(guī)模)和自舉(因為效率)是難以舍棄的
但是異策略不一定被需要
Linear Value-function Geometry

Stochastic Gradient Descent in the Bellman Error
Temporal difference learning is driven by the TD error. Why not take the minimization of the expected square of the TD error as the objective?
TD Error

Mean Squared TD Error


然而,我們的分析得出結(jié)論認為,在許多情況下這不是一個吸引人的目標,并且無論如何使用學習算法都無法實現(xiàn) - BE的梯度無法從僅顯示特征向量而非基礎(chǔ)狀態(tài)的經(jīng)驗中學習。 另一種方法是Gradient-TD方法,在投影貝爾曼誤差中執(zhí)行SGD。 可以通過O(d)復雜度來學習PBE的梯度,但是以具有第二步長的第二參數(shù)向量為代價。 最新的方法系列,Emphatic-TD methods,改進了重新定量更新的舊想法,強調(diào)了一些并且不再強調(diào)其他人。 通過這種方式,他們可以通過計算簡單的半梯度方法恢復使策略學習穩(wěn)定的特殊屬性。