草草激情网,精品高清成人DN,亚洲AV久久网

這篇論文是飛飛出品，你知道的，imageNet的光環(huán)。論文主要是通過深度增強(qiáng)學(xué)習(xí)讓機(jī)器人在房間里面找東西。

那么對于基于DRL的算法，確實(shí)存在論文指出的的缺點(diǎn)：1、對目標(biāo)的泛化能力比較弱；2、數(shù)據(jù)的低效性，無法從模擬環(huán)境轉(zhuǎn)移到真實(shí)世界（deepmind在今年發(fā)表了一篇論文，用transfer learning的辦法實(shí)現(xiàn)從模擬環(huán)境到真實(shí)環(huán)境）。

論文號稱有了四個方面的改進(jìn)：

1、收斂更快

2、具備泛化目標(biāo)和場景

3、僅僅進(jìn)行finetuning就能把網(wǎng)絡(luò)應(yīng)用于實(shí)際世界

4、end to end

為了達(dá)到這些目的，他們首先是開發(fā)了一個高質(zhì)量的3D效果的模擬環(huán)境 The House Of inteRactions

(AI2-THOR)：

1、有即插即用的架構(gòu)，方便各種環(huán)境的組合。能夠支持運(yùn)動和物體在外力作用相應(yīng)變化。結(jié)合了unity3D物理引擎和深度學(xué)習(xí)框架。

2、通過物理引擎渲染的圖片進(jìn)入深度學(xué)習(xí)框架中，而深度學(xué)習(xí)的框架可以根據(jù)視覺輸入發(fā)出控制命令，把命令傳遞給物理引擎。物理引擎和學(xué)習(xí)框架是直接通訊的。

3、虛擬環(huán)境的物體和實(shí)際環(huán)境中要盡可能的細(xì)節(jié)一致

4、創(chuàng)建基于室內(nèi)臥室、客廳、廚房和衛(wèi)生間32個不同的場景，平均每個場景容納了68個物體

（看起來真是不錯，等開源）

算法Target-driven Visual Navigation in Indoor Scenes主要思路：

1、問題和目標(biāo)

最少的步驟讓機(jī)器人走到目標(biāo)圖片所在的場景。記住一點(diǎn)：算法最后建立的模型能夠讓agent通過2D的照片學(xué)習(xí)到3D環(huán)境中的行動。

2、問題的構(gòu)想

論文認(rèn)為，我們之前利用drl解決問題，都是一點(diǎn)點(diǎn)學(xué)會規(guī)則，其實(shí)從某種意義上來說，就是把目標(biāo)硬編碼在網(wǎng)絡(luò)參數(shù)中，所以，論文采用的辦法是把目標(biāo)作為輸入引人網(wǎng)絡(luò)，而不是硬編碼到網(wǎng)絡(luò)參數(shù)中。所以，算法提出的網(wǎng)絡(luò)是把state和target goal都當(dāng)成輸入，這樣就泛化了目標(biāo)，解決了更換目標(biāo)就要重新訓(xùn)練網(wǎng)絡(luò)的問題。即使即使目標(biāo)沒有被訓(xùn)練過，也能使用

3、搭建環(huán)境

動作空間：四個動作輸出，前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)。在實(shí)際環(huán)境中，輸出增加了高斯噪聲

步長N（0，0.01），角度N（0，1.0）

觀察和目標(biāo)：

觀察和目標(biāo)都是基于agent的第一視角的RGB相機(jī)拍攝的

獎賞設(shè)置：

到達(dá)目標(biāo)，10分的獎勵，為了鼓勵最短路徑，每過一段時間給予-0.01的懲罰

4、Model：

因?yàn)樵黾恿四繕?biāo)輸入，策略函數(shù)就變成了這樣：

g是goal。（這是整篇論文中唯一出現(xiàn)的公式，感覺不是在看DRL的論文，呵呵）

對于網(wǎng)絡(luò)來說，輸入是兩張圖片，一個是當(dāng)前的state，另外一個是目標(biāo)。網(wǎng)絡(luò)的任務(wù)是搜索state和goal之間的空間聯(lián)系，也就是說必須有地理空間的各個照片和空間聯(lián)系，所以所有環(huán)境的的信息是要保留在網(wǎng)絡(luò)中的。論文應(yīng)用了一個深度siamese網(wǎng)絡(luò)，來完成state到整個環(huán)境的映射，從圖4中可以看出來，我沒怎么看明白，于是找了論文中列出來的參考論文，Yannlecun大牛的，網(wǎng)絡(luò)架構(gòu)如下：

看這個圖應(yīng)該能對所謂深度siamese網(wǎng)絡(luò)加深了解。

5、訓(xùn)練

采用了A3C的算法，主要是考慮異步并行。

6、網(wǎng)絡(luò)架構(gòu)：

網(wǎng)絡(luò)的最底層是利用imagenet預(yù)先訓(xùn)練好的ResNet-50，基于224*224*3的輸入產(chǎn)生2048維的輸出，采用4楨連續(xù)的圖像作為狀態(tài)輸入，額外的goal的圖像也是同樣處理。ResNet-50的參數(shù)在后面的訓(xùn)練中是freezed的。兩個輸出最后合并成512維的向量，然后流經(jīng)場景層，（這部分算法是沒有給出的，大家可以自己考慮，我理解還是圖像差別比較），最后輸出agent的動作。

上一張更形象的圖

論文的主要算法就是這些了，后面的主要是一些測試數(shù)據(jù)，比較部分就不提了。論文還做了一個測試，就是利用真實(shí)的機(jī)器人來驗(yàn)證他們的想法。實(shí)驗(yàn)證明基于模擬環(huán)境測試的網(wǎng)絡(luò)可以讓真實(shí)的機(jī)器人收斂速度快44%。

個人感覺：論文提出的那些問題確實(shí)是最主要的問題，而且也很宏大，但是論文本身提出的解決方案，還是有一些trick的（當(dāng)然我的水平還是無法企及的，不要被我的看法誤導(dǎo)）。我覺得模擬環(huán)境值得期待，從模擬環(huán)境到真實(shí)機(jī)器人的探索也是一個亮點(diǎn)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

讀論文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

讀論文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

讀論文Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av