這篇論文是飛飛出品,你知道的,imageNet的光環(huán)。論文主要是通過深度增強(qiáng)學(xué)習(xí)讓機(jī)器人在房間里面找東西。
那么對于基于DRL的算法,確實(shí)存在論文指出的的缺點(diǎn):1、對目標(biāo)的泛化能力比較弱;2、數(shù)據(jù)的低效性,無法從模擬環(huán)境轉(zhuǎn)移到真實(shí)世界(deepmind在今年發(fā)表了一篇論文,用transfer learning的辦法實(shí)現(xiàn)從模擬環(huán)境到真實(shí)環(huán)境)。
論文號稱有了四個方面的改進(jìn):
1、收斂更快
2、具備泛化目標(biāo)和場景
3、僅僅進(jìn)行finetuning就能把網(wǎng)絡(luò)應(yīng)用于實(shí)際世界
4、end to end
為了達(dá)到這些目的,他們首先是開發(fā)了一個高質(zhì)量的3D效果的模擬環(huán)境 The House Of inteRactions
(AI2-THOR):
1、有即插即用的架構(gòu),方便各種環(huán)境的組合。能夠支持運(yùn)動和物體在外力作用相應(yīng)變化。結(jié)合了unity3D物理引擎和深度學(xué)習(xí)框架。
2、通過物理引擎渲染的圖片進(jìn)入深度學(xué)習(xí)框架中,而深度學(xué)習(xí)的框架可以根據(jù)視覺輸入發(fā)出控制命令,把命令傳遞給物理引擎。物理引擎和學(xué)習(xí)框架是直接通訊的。
3、虛擬環(huán)境的物體和實(shí)際環(huán)境中要盡可能的細(xì)節(jié)一致
4、創(chuàng)建基于室內(nèi)臥室、客廳、廚房和衛(wèi)生間32個不同的場景,平均每個場景容納了68個物體
(看起來真是不錯,等開源)
算法Target-driven Visual Navigation in Indoor Scenes主要思路:
1、問題和目標(biāo)
最少的步驟讓機(jī)器人走到目標(biāo)圖片所在的場景。記住一點(diǎn):算法最后建立的模型能夠讓agent通過2D的照片學(xué)習(xí)到3D環(huán)境中的行動。
2、問題的構(gòu)想
論文認(rèn)為,我們之前利用drl解決問題,都是一點(diǎn)點(diǎn)學(xué)會規(guī)則,其實(shí)從某種意義上來說,就是把目標(biāo)硬編碼在網(wǎng)絡(luò)參數(shù)中,所以,論文采用的辦法是把目標(biāo)作為輸入引人網(wǎng)絡(luò),而不是硬編碼到網(wǎng)絡(luò)參數(shù)中。所以,算法提出的網(wǎng)絡(luò)是把state和target goal都當(dāng)成輸入,這樣就泛化了目標(biāo),解決了更換目標(biāo)就要重新訓(xùn)練網(wǎng)絡(luò)的問題。即使即使目標(biāo)沒有被訓(xùn)練過,也能使用
3、搭建環(huán)境
動作空間:四個動作輸出,前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)。在實(shí)際環(huán)境中,輸出增加了高斯噪聲
步長N(0,0.01),角度N(0,1.0)
觀察和目標(biāo):
觀察和目標(biāo)都是基于agent的第一視角的RGB相機(jī)拍攝的
獎賞設(shè)置:
到達(dá)目標(biāo),10分的獎勵,為了鼓勵最短路徑,每過一段時間給予-0.01的懲罰
4、Model:
因?yàn)樵黾恿四繕?biāo)輸入,策略函數(shù)就變成了這樣:

g是goal。(這是整篇論文中唯一出現(xiàn)的公式,感覺不是在看DRL的論文,呵呵)
對于網(wǎng)絡(luò)來說,輸入是兩張圖片,一個是當(dāng)前的state,另外一個是目標(biāo)。網(wǎng)絡(luò)的任務(wù)是搜索state和goal之間的空間聯(lián)系,也就是說必須有地理空間的各個照片和空間聯(lián)系,所以所有環(huán)境的的信息是要保留在網(wǎng)絡(luò)中的。論文應(yīng)用了一個深度siamese網(wǎng)絡(luò),來完成state到整個環(huán)境的映射,從圖4中可以看出來,我沒怎么看明白,于是找了論文中列出來的參考論文,Yannlecun大牛的,網(wǎng)絡(luò)架構(gòu)如下:

看這個圖應(yīng)該能對所謂深度siamese網(wǎng)絡(luò)加深了解。
5、訓(xùn)練
采用了A3C的算法,主要是考慮異步并行。
6、網(wǎng)絡(luò)架構(gòu):

網(wǎng)絡(luò)的最底層是利用imagenet預(yù)先訓(xùn)練好的ResNet-50,基于224*224*3的輸入產(chǎn)生2048維的輸出,采用4楨連續(xù)的圖像作為狀態(tài)輸入,額外的goal的圖像也是同樣處理。ResNet-50的參數(shù)在后面的訓(xùn)練中是freezed的。兩個輸出最后合并成512維的向量,然后流經(jīng)場景層,(這部分算法是沒有給出的,大家可以自己考慮,我理解還是圖像差別比較),最后輸出agent的動作。
上一張更形象的圖

論文的主要算法就是這些了,后面的主要是一些測試數(shù)據(jù),比較部分就不提了。論文還做了一個測試,就是利用真實(shí)的機(jī)器人來驗(yàn)證他們的想法。實(shí)驗(yàn)證明基于模擬環(huán)境測試的網(wǎng)絡(luò)可以讓真實(shí)的機(jī)器人收斂速度快44%。

個人感覺:論文提出的那些問題確實(shí)是最主要的問題,而且也很宏大,但是論文本身提出的解決方案,還是有一些trick的(當(dāng)然我的水平還是無法企及的,不要被我的看法誤導(dǎo))。我覺得模擬環(huán)境值得期待,從模擬環(huán)境到真實(shí)機(jī)器人的探索也是一個亮點(diǎn)。