超碰欧美专区,工口视频在线观看,亚洲永久精品一二三

ICMl2016的最佳論文有三篇，其中兩篇花落deepmind，而David Silver連續(xù)兩年都做了 deep reinforcement learning的專(zhuān)題演講，加上Alphago的劃時(shí)代的表現(xiàn)，deepmind風(fēng)頭真是無(wú)與倫比。今天我想解讀的這篇論文就是獲獎(jiǎng)中的一篇，Dueling Network Architectures for Deep Reinforcement Learning。

自從DQN的論文在nature發(fā)布之后，對(duì)DQN的研究的熱潮一直在持續(xù)發(fā)酵，就其原因一方面在于它是把deep learning和reinforcement learning結(jié)合起來(lái)，開(kāi)了從感知到?jīng)Q策的end to end的先河。另外一方面，DQN還是有很多問(wèn)題有待解決，比如在復(fù)雜的游戲中的表現(xiàn)、解決連續(xù)的動(dòng)作空間等問(wèn)題。這篇論文也是DQN算法的一個(gè)延續(xù)。

Dueling NetworkArchitectures for Deep Reinforcement Learning提出了一種新的網(wǎng)絡(luò)架構(gòu)，在評(píng)估Q (S,A)的時(shí)候也同時(shí)評(píng)估了跟動(dòng)作無(wú)關(guān)的狀態(tài)的價(jià)值函數(shù)V(S)和在狀態(tài)下各個(gè)動(dòng)作的相對(duì)價(jià)值函數(shù)A(S,A)的值。一圖勝百言。

圖的第一部分就是傳統(tǒng)的DQN算法的網(wǎng)絡(luò)圖。下面的圖就是Dueling DQN的圖。DQN的輸出就是Q函數(shù)的值（當(dāng)然是動(dòng)作空間的維度），它的前一層是全聯(lián)接層。而DuelingDQN改變主要是這里，把全聯(lián)接改成兩條流，一條輸出標(biāo)量的關(guān)于狀態(tài)的價(jià)值，另外一條輸出關(guān)于動(dòng)作的Advantage價(jià)值函數(shù)的值，就是綠色部分前面的兩條流。最后通過(guò)綠色部分合成Q價(jià)值函數(shù)。

從上面這個(gè)公式來(lái)看advantage函數(shù)的意義，V(S)這個(gè)價(jià)值函數(shù)表明了狀態(tài)的好壞程度。而Q函數(shù)表明了這個(gè)狀態(tài)下確定的某個(gè)動(dòng)作的價(jià)值。而Advantage函數(shù)表明在這個(gè)狀態(tài)下各個(gè)動(dòng)作的相對(duì)好壞程度。實(shí)際上Advantage的函數(shù)的應(yīng)用非常廣泛，在增強(qiáng)學(xué)習(xí)很多算法中，用advantage函數(shù)的情況比Q或者V價(jià)值函數(shù)更廣泛一點(diǎn)。

那么為什么這樣設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)，論文給出的解釋是在游戲中，存在很多狀態(tài)，不管你采用什么樣的action對(duì)下一步的狀態(tài)轉(zhuǎn)變是沒(méi)什么影響的。這些情況下計(jì)算動(dòng)作的價(jià)值函數(shù)的意義沒(méi)有狀態(tài)函數(shù)的價(jià)值意義大。

特別強(qiáng)調(diào)的一點(diǎn)是DuelingDQN是一個(gè)end to end的訓(xùn)練網(wǎng)絡(luò)，不存在單獨(dú)訓(xùn)練V或者A價(jià)值函數(shù)，所以Dueling DQN網(wǎng)絡(luò)的訓(xùn)練和之前DQN的沒(méi)有任何區(qū)別。

另外一個(gè)問(wèn)題是，因?yàn)閂(S)是一個(gè)標(biāo)量，所以在網(wǎng)絡(luò)中，這個(gè)值是可以左偏或者右偏，對(duì)最后Q的值是沒(méi)有影響的。這樣的話(huà)，實(shí)際上通過(guò)Q是沒(méi)辦法解析出A和V的值，當(dāng)然在實(shí)際算法中，我們是可以計(jì)算的。但是在這個(gè)端到端的訓(xùn)練中，這兩個(gè)值有一個(gè)常數(shù)的差異是正常的，如果這個(gè)差異總是搖擺不定，顯然對(duì)我們的預(yù)測(cè)和估算是不利的，所以論文的解決辦法是固定一個(gè)偏差，就是下面的公式：

這部分的算法是在網(wǎng)絡(luò)架構(gòu)中綠色部分來(lái)完成的，這樣對(duì)所有狀態(tài)和動(dòng)作的評(píng)估就有了統(tǒng)一的標(biāo)準(zhǔn)。

技術(shù)部分基本上就這樣的，論文的還有一部分就是效果，當(dāng)然是新的state-of-the-art。不多說(shuō)了，上圖：

最后，想法很奇妙但是簡(jiǎn)單，實(shí)現(xiàn)起來(lái)考慮的問(wèn)題很多，最后的效果很好。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

讀論文Dueling Network Architectures for Deep Reinforcement Learning

讀論文Dueling Network Architectures for Deep Reinforcement Learning

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

讀論文Dueling Network Architectures for Deep Reinforcement Learning

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av