讀論文Dueling Network Architectures for Deep Reinforcement Learning

ICMl2016的最佳論文有三篇,其中兩篇花落deepmind,而David Silver連續(xù)兩年都做了 deep reinforcement learning的專(zhuān)題演講,加上Alphago的劃時(shí)代的表現(xiàn),deepmind風(fēng)頭真是無(wú)與倫比。今天我想解讀的這篇論文就是獲獎(jiǎng)中的一篇,Dueling Network Architectures for Deep Reinforcement Learning。

自從DQN的論文在nature發(fā)布之后,對(duì)DQN的研究的熱潮一直在持續(xù)發(fā)酵,就其原因一方面在于它是把deep learning和reinforcement learning結(jié)合起來(lái),開(kāi)了從感知到?jīng)Q策的end to end的先河。另外一方面,DQN還是有很多問(wèn)題有待解決,比如在復(fù)雜的游戲中的表現(xiàn)、解決連續(xù)的動(dòng)作空間等問(wèn)題。這篇論文也是DQN算法的一個(gè)延續(xù)。

Dueling NetworkArchitectures for Deep Reinforcement Learning提出了一種新的網(wǎng)絡(luò)架構(gòu),在評(píng)估Q (S,A)的時(shí)候也同時(shí)評(píng)估了跟動(dòng)作無(wú)關(guān)的狀態(tài)的價(jià)值函數(shù)V(S)和在狀態(tài)下各個(gè)動(dòng)作的相對(duì)價(jià)值函數(shù)A(S,A)的值。一圖勝百言。


圖的第一部分就是傳統(tǒng)的DQN算法的網(wǎng)絡(luò)圖。下面的圖就是Dueling DQN的圖。DQN的輸出就是Q函數(shù)的值(當(dāng)然是動(dòng)作空間的維度),它的前一層是全聯(lián)接層。而DuelingDQN改變主要是這里,把全聯(lián)接改成兩條流,一條輸出標(biāo)量的關(guān)于狀態(tài)的價(jià)值,另外一條輸出關(guān)于動(dòng)作的Advantage價(jià)值函數(shù)的值,就是綠色部分前面的兩條流。最后通過(guò)綠色部分合成Q價(jià)值函數(shù)。


從上面這個(gè)公式來(lái)看advantage函數(shù)的意義,V(S)這個(gè)價(jià)值函數(shù)表明了狀態(tài)的好壞程度。而Q函數(shù)表明了這個(gè)狀態(tài)下確定的某個(gè)動(dòng)作的價(jià)值。而Advantage函數(shù)表明在這個(gè)狀態(tài)下各個(gè)動(dòng)作的相對(duì)好壞程度。實(shí)際上Advantage的函數(shù)的應(yīng)用非常廣泛,在增強(qiáng)學(xué)習(xí)很多算法中,用advantage函數(shù)的情況比Q或者V價(jià)值函數(shù)更廣泛一點(diǎn)。

那么為什么這樣設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),論文給出的解釋是在游戲中,存在很多狀態(tài),不管你采用什么樣的action對(duì)下一步的狀態(tài)轉(zhuǎn)變是沒(méi)什么影響的。這些情況下計(jì)算動(dòng)作的價(jià)值函數(shù)的意義沒(méi)有狀態(tài)函數(shù)的價(jià)值意義大。

特別強(qiáng)調(diào)的一點(diǎn)是DuelingDQN是一個(gè)end to end的訓(xùn)練網(wǎng)絡(luò),不存在單獨(dú)訓(xùn)練V或者A價(jià)值函數(shù),所以Dueling DQN網(wǎng)絡(luò)的訓(xùn)練和之前DQN的沒(méi)有任何區(qū)別。

另外一個(gè)問(wèn)題是,因?yàn)閂(S)是一個(gè)標(biāo)量,所以在網(wǎng)絡(luò)中,這個(gè)值是可以左偏或者右偏,對(duì)最后Q的值是沒(méi)有影響的。這樣的話(huà),實(shí)際上通過(guò)Q是沒(méi)辦法解析出A和V的值,當(dāng)然在實(shí)際算法中,我們是可以計(jì)算的。但是在這個(gè)端到端的訓(xùn)練中,這兩個(gè)值有一個(gè)常數(shù)的差異是正常的,如果這個(gè)差異總是搖擺不定,顯然對(duì)我們的預(yù)測(cè)和估算是不利的,所以論文的解決辦法是固定一個(gè)偏差,就是下面的公式:


這部分的算法是在網(wǎng)絡(luò)架構(gòu)中綠色部分來(lái)完成的,這樣對(duì)所有狀態(tài)和動(dòng)作的評(píng)估就有了統(tǒng)一的標(biāo)準(zhǔn)。

技術(shù)部分基本上就這樣的,論文的還有一部分就是效果,當(dāng)然是新的state-of-the-art。不多說(shuō)了,上圖:


最后,想法很奇妙但是簡(jiǎn)單,實(shí)現(xiàn)起來(lái)考慮的問(wèn)題很多,最后的效果很好。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容