ICMl2016的最佳論文有三篇,其中兩篇花落deepmind,而David Silver連續(xù)兩年都做了 deep reinforcement learning的專(zhuān)題演講,加上Alphago的劃時(shí)代的表現(xiàn),deepmind風(fēng)頭真是無(wú)與倫比。今天我想解讀的這篇論文就是獲獎(jiǎng)中的一篇,Dueling Network Architectures for Deep Reinforcement Learning。
自從DQN的論文在nature發(fā)布之后,對(duì)DQN的研究的熱潮一直在持續(xù)發(fā)酵,就其原因一方面在于它是把deep learning和reinforcement learning結(jié)合起來(lái),開(kāi)了從感知到?jīng)Q策的end to end的先河。另外一方面,DQN還是有很多問(wèn)題有待解決,比如在復(fù)雜的游戲中的表現(xiàn)、解決連續(xù)的動(dòng)作空間等問(wèn)題。這篇論文也是DQN算法的一個(gè)延續(xù)。
Dueling NetworkArchitectures for Deep Reinforcement Learning提出了一種新的網(wǎng)絡(luò)架構(gòu),在評(píng)估Q (S,A)的時(shí)候也同時(shí)評(píng)估了跟動(dòng)作無(wú)關(guān)的狀態(tài)的價(jià)值函數(shù)V(S)和在狀態(tài)下各個(gè)動(dòng)作的相對(duì)價(jià)值函數(shù)A(S,A)的值。一圖勝百言。

圖的第一部分就是傳統(tǒng)的DQN算法的網(wǎng)絡(luò)圖。下面的圖就是Dueling DQN的圖。DQN的輸出就是Q函數(shù)的值(當(dāng)然是動(dòng)作空間的維度),它的前一層是全聯(lián)接層。而DuelingDQN改變主要是這里,把全聯(lián)接改成兩條流,一條輸出標(biāo)量的關(guān)于狀態(tài)的價(jià)值,另外一條輸出關(guān)于動(dòng)作的Advantage價(jià)值函數(shù)的值,就是綠色部分前面的兩條流。最后通過(guò)綠色部分合成Q價(jià)值函數(shù)。

從上面這個(gè)公式來(lái)看advantage函數(shù)的意義,V(S)這個(gè)價(jià)值函數(shù)表明了狀態(tài)的好壞程度。而Q函數(shù)表明了這個(gè)狀態(tài)下確定的某個(gè)動(dòng)作的價(jià)值。而Advantage函數(shù)表明在這個(gè)狀態(tài)下各個(gè)動(dòng)作的相對(duì)好壞程度。實(shí)際上Advantage的函數(shù)的應(yīng)用非常廣泛,在增強(qiáng)學(xué)習(xí)很多算法中,用advantage函數(shù)的情況比Q或者V價(jià)值函數(shù)更廣泛一點(diǎn)。
那么為什么這樣設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),論文給出的解釋是在游戲中,存在很多狀態(tài),不管你采用什么樣的action對(duì)下一步的狀態(tài)轉(zhuǎn)變是沒(méi)什么影響的。這些情況下計(jì)算動(dòng)作的價(jià)值函數(shù)的意義沒(méi)有狀態(tài)函數(shù)的價(jià)值意義大。
特別強(qiáng)調(diào)的一點(diǎn)是DuelingDQN是一個(gè)end to end的訓(xùn)練網(wǎng)絡(luò),不存在單獨(dú)訓(xùn)練V或者A價(jià)值函數(shù),所以Dueling DQN網(wǎng)絡(luò)的訓(xùn)練和之前DQN的沒(méi)有任何區(qū)別。
另外一個(gè)問(wèn)題是,因?yàn)閂(S)是一個(gè)標(biāo)量,所以在網(wǎng)絡(luò)中,這個(gè)值是可以左偏或者右偏,對(duì)最后Q的值是沒(méi)有影響的。這樣的話(huà),實(shí)際上通過(guò)Q是沒(méi)辦法解析出A和V的值,當(dāng)然在實(shí)際算法中,我們是可以計(jì)算的。但是在這個(gè)端到端的訓(xùn)練中,這兩個(gè)值有一個(gè)常數(shù)的差異是正常的,如果這個(gè)差異總是搖擺不定,顯然對(duì)我們的預(yù)測(cè)和估算是不利的,所以論文的解決辦法是固定一個(gè)偏差,就是下面的公式:

這部分的算法是在網(wǎng)絡(luò)架構(gòu)中綠色部分來(lái)完成的,這樣對(duì)所有狀態(tài)和動(dòng)作的評(píng)估就有了統(tǒng)一的標(biāo)準(zhǔn)。
技術(shù)部分基本上就這樣的,論文的還有一部分就是效果,當(dāng)然是新的state-of-the-art。不多說(shuō)了,上圖:

最后,想法很奇妙但是簡(jiǎn)單,實(shí)現(xiàn)起來(lái)考慮的問(wèn)題很多,最后的效果很好。