太讓當(dāng)空照,導(dǎo)師對(duì)我笑,老師說,早早早,你為什么論文發(fā)的那么少。不說了,都是淚啊,科研不易,且行且珍惜吧,尤其是我這一頭還算茂密的黑發(fā)(手動(dòng)撩發(fā))。
最近科技界比較平靜,好像沒有什么驚世駭俗的事情發(fā)生,我每天也是默默的看著論文,擼著代碼,享受著歲月靜好。要說有什么好玩的事情,應(yīng)該是我們的吳恩達(dá)(Andrew Ng)老師最近就在今天宣布開始種地啦,國(guó)人田園風(fēng)光才是真正美好啊。開玩笑的啦,新聞是這樣的:
Landing.ai 是人工智能著名學(xué)者吳恩達(dá)(Andrew Ng)的第二個(gè)創(chuàng)業(yè)項(xiàng)目。在公司成立并宣布與富士康進(jìn)行合作僅 7 個(gè)月后,今天 Landing.ai 又在湖南長(zhǎng)沙宣布簽下第二個(gè)大單:與國(guó)內(nèi)高端裝備制造企業(yè)中聯(lián)重科達(dá)成戰(zhàn)略合作。
這份協(xié)議的簽訂標(biāo)志著中聯(lián)重科進(jìn)入人工智能技術(shù)領(lǐng)域,成為國(guó)內(nèi)首家 AI 農(nóng)業(yè)裝備制造企業(yè)。雙方將致力于共同研發(fā)基于人工智能(AI)技術(shù)的新產(chǎn)品,打造頂尖人工智能技術(shù)團(tuán)隊(duì),以使中聯(lián)重科成為以人工智能驅(qū)動(dòng)的領(lǐng)先裝備制造企業(yè)。
此次雙方的合作主要包括技術(shù)合作與人才培養(yǎng)兩大方向。技術(shù)合作上,Landing.AI 將為中聯(lián)重科農(nóng)業(yè)機(jī)械和其他領(lǐng)域提供人工智能技術(shù)的戰(zhàn)略,雙方將共同開發(fā)數(shù)款基于人工智能技術(shù)的農(nóng)業(yè)機(jī)械產(chǎn)品。人才培養(yǎng)方面,Landing.AI 將幫助中聯(lián)重科招聘、培訓(xùn),為其建立一支專業(yè)的人工智能技術(shù)團(tuán)隊(duì),讓中聯(lián)重科持續(xù)運(yùn)用人工智能技術(shù)服務(wù)企業(yè)的發(fā)展。
不知道大家還記不記得百度的“阿波牛”,這次雙方的合作應(yīng)該是為讓AI賦能傳統(tǒng)農(nóng)業(yè),這也說明各界大佬們對(duì)AI全面改變社會(huì)的生產(chǎn)方式充滿了信心。說起這次合作的產(chǎn)品,也是自動(dòng)駕駛家族的一員哦,就是下面這個(gè)大家伙。

你看,就像馬云大大在世界人工智能大會(huì)上說的一樣,自動(dòng)駕駛的未來需要想象力,技術(shù)帶來的永遠(yuǎn)不只是可預(yù)見的改變,讓我們一起期待并見證美好的未來吧。

下面回歸正題,繼續(xù)介紹2018CVPR自動(dòng)駕駛相關(guān)領(lǐng)域的論文,今天的論文題目是《On the Importance of Stereo for Accurate Depth Estimation:An Efficient Semi-Supervised Deep Neural Network Approach》,深度估計(jì)是計(jì)算機(jī)視覺領(lǐng)域長(zhǎng)期存在的一項(xiàng)具有挑戰(zhàn)性的任務(wù)之一,在自動(dòng)駕駛中也起著至關(guān)重要的作用。目前深度估計(jì)采用的技術(shù)主要包括雙目深度估計(jì)(為了提高精度,特斯拉的前置攝像頭采用三目深度估計(jì))、單目深度估計(jì)、結(jié)構(gòu)光(第一代kinect)、TOF(time-of-flight,第二代kinect采用的技術(shù)),以及精度最高但是成本也最高的激光雷達(dá)(谷歌等公司在用,谷歌好像收購(gòu)了一家激光雷達(dá)公司,可以把激光雷達(dá)的成本降低到了以前的十分之一,好多數(shù)據(jù)集把激光雷達(dá)采集到的深度數(shù)據(jù)作為訓(xùn)練和評(píng)價(jià)其他深度估計(jì)方法的ground truth),當(dāng)然還有其他利用非光學(xué)信號(hào)的測(cè)距技術(shù),例如聲納等。
基于單目攝像機(jī)的深度估計(jì)技術(shù)的研究意義重大,尤其是對(duì)機(jī)器人領(lǐng)域和自動(dòng)駕駛領(lǐng)域,準(zhǔn)確的估計(jì)障礙物的距離對(duì)正確規(guī)劃汽車的路徑和行為至關(guān)重要,但是由于單目深度估計(jì)只包含一幀幀的圖像,因此準(zhǔn)確估計(jì)深度信息極為困難,目前精度最高的單目深度估計(jì)技術(shù)也不足以滿足實(shí)際的需求。
雙目(多目)深度估計(jì)模仿了生物兩只眼睛的結(jié)構(gòu)特點(diǎn),利用兩臺(tái)攝像機(jī)之間已知的幾何信息進(jìn)行深度估計(jì),其算法流程為

雙目匹配是雙目深度估計(jì)的核心部分也是難點(diǎn)所在,發(fā)展了很多年,也有非常多的算法,主要目的是計(jì)算參考圖與目標(biāo)圖之間像素的相對(duì)匹配關(guān)系,主要分為局部和非局部的算法。一般有下面幾個(gè)步驟。
1.匹配誤差計(jì)算
2. 誤差集成
3.視差圖計(jì)算/優(yōu)化
4. 視差圖矯正

目前匹配算法中效果最好的是圖割算法,但是會(huì)消耗大量的計(jì)算資源。
本文就是利用深度學(xué)習(xí)的方法解決匹配問題,同時(shí)對(duì)比了單目深度估計(jì)和雙目深度估計(jì)的效果,并進(jìn)行了定性和定量的分析。同時(shí)在本文提出方法上,使用嵌入式GPU可以達(dá)到~20fps的速度同時(shí)保證結(jié)果可用。

由上圖可知,在自動(dòng)駕駛場(chǎng)景中,單目深度估計(jì)得到的結(jié)果幾乎不可用(上圖左圖),圖中共有八個(gè)標(biāo)記點(diǎn)(A-H),基于單目的深度估計(jì)全部預(yù)測(cè)錯(cuò)誤,而基于雙目的深度估計(jì)得到的結(jié)果幾乎和激光雷達(dá)得到的結(jié)果一致。單目深度估計(jì)之所以效果不好,其原因就是單目無法解決尺度縮放帶來的影響,也就是SLAM里面的尺度不確定性問題。雙目攝像機(jī)由于已知兩個(gè)攝像機(jī)之間的距離,因此可以很容易的獲得空間信息,最大的難點(diǎn)就是對(duì)獲取到的圖像進(jìn)行匹配,也就是兩個(gè)攝像機(jī)中哪些像素點(diǎn)對(duì)應(yīng)空間中的同一個(gè)點(diǎn)。
文中提到的網(wǎng)絡(luò)的結(jié)構(gòu)略微有些復(fù)雜,這里就不詳細(xì)展開了,感興趣的可以自己看論文里的附錄部分。

網(wǎng)絡(luò)通過對(duì)比得到的特征圖進(jìn)行匹配,然后就可以很方便的計(jì)算深度啦。文章涉及到的損失設(shè)計(jì)很復(fù)雜,本人能力有限加上非此方向,所以想要深究的大神就自己看論文吧(萬分抱歉,嗚嗚)。

基于視覺信息的深度估計(jì)對(duì)降低自動(dòng)駕駛汽車的成本很有幫助,但是對(duì)算法的要求比較高,因此如何開發(fā)出高效準(zhǔn)確的算法對(duì)自動(dòng)駕駛的安全可靠至關(guān)重要。
最后,祝好!愿與諸君一起進(jìn)步。