姓名:杜敏剛? ? ? 學號:17021211253
轉(zhuǎn)載自:http://36kr.com/p/5102586.html
【嵌牛導讀】11月11日,2017全球未來出行國際博覽會在杭州舉行,在全球未來出行高層論壇上,地平線創(chuàng)始人兼CEO余凱出席并發(fā)表演講。作為前百度IDL副院長,百度無人駕駛項目發(fā)起人之一,余凱全面闡述了地平線對自動駕駛領域的看法和發(fā)展策略。
【嵌牛鼻子】自動駕駛、智能計算、算法、云計算、芯片
【嵌牛提問】自動駕駛的核心是什么?自動駕駛離真正實現(xiàn)還需要多久?
【嵌牛正文】
作為前百度IDL副院長,百度無人駕駛項目發(fā)起人之一,余凱的演講干貨滿滿。
11月11日,2017全球未來出行國際博覽會在杭州舉行,在全球未來出行高層論壇上,地平線創(chuàng)始人兼CEO余凱出席并發(fā)表演講。
作為前百度IDL副院長,百度無人駕駛項目發(fā)起人之一,余凱全面闡述了地平線對自動駕駛領域的看法和發(fā)展策略。余凱認為,一輛自動駕駛汽車是計算量達到了4-10個TB/天,一個2000輛規(guī)模級的自動駕駛汽車的數(shù)據(jù)量會更加驚人。這就要求我們需要用全新的思路去定義自動駕駛的軟件算法和硬件架構(gòu)。
具體來說,因為應用場景的變化,重新定義軟件的架構(gòu),導致硬件架構(gòu)的變化,核心就是人工智能的計算,從CPU時代的邏輯計算為主到現(xiàn)在深度深耕網(wǎng)絡計算的智能計算,實際上使得硬件處理器的架構(gòu)重新在被定義。
對于業(yè)內(nèi)普遍認為的高精度地圖在自動駕駛領域不可或缺,余凱認為其實我們一定要保證這個自動駕駛在完全不聯(lián)網(wǎng)的狀況下足夠的安全。所以邊緣計算、本地計算至關重要,自動駕駛實際上是邊緣計算最具有挑戰(zhàn)性、最具有必要性、最重要的場景。
關于自動駕駛本身,余凱認為軟件系統(tǒng)的透明可追溯性、端到端的學習和硬件的實時低延遲都是最值得關注的技術部分。只有這些問題得以解決,自動駕駛落地才有機會提上日程。
以下是余凱發(fā)言全文:
謝謝陳教授的介紹。今天我想跟大家分享一下地平線正在做的,就是我們定義為我們自己的核心使命,是去研發(fā)、去打造自動駕駛的大腦,其實核心包括兩個方面,首先是核心算法,怎么去通過人工智能的算法包括增強學習、深度學習以及規(guī)則去打造這樣一個算法平臺。其次,怎么樣去設計一個硬件處理器的架構(gòu),使得能夠去高效的支撐這樣一個計算。因為我們知道,面向自動駕駛每一天我們要處理大概4-10個TB的數(shù)據(jù),一天里面我們2千輛自動駕駛的汽車,他所處理的數(shù)據(jù)比整個百度搜索引擎檢索的數(shù)據(jù)量還要大,所以未來面向自動駕駛真正的是大數(shù)據(jù)的問題、大數(shù)據(jù)的時代,我們需要有全新的思路去思考他的軟件算法,全新的思路去定義這個硬件架構(gòu),就是他的核心處理器。
這樣一個自動駕駛的汽車,考慮他的計算,不僅僅是算法和處理器,其實也包括在云端去做這種大數(shù)據(jù)的計算,還包括在云端去做大規(guī)模的仿真,未來大量的測試實際上是在仿真平臺上面去實現(xiàn),所以我們定義我們自己核心的一個技術平臺的供應商,我們主要是三個支點,第一是算法,第二是芯片,第三是云。
今天我們講面向自動駕駛的人工智能計算,實際上最主要的玩家并不會太多,因為這個里面需要有強大的計算力,需要有強大的支撐,非常高效的人工智能計算,實際上我們今天看到業(yè)界可以染指在這個領域的主要是三個玩家,一個是NVIDIA,一個是Mobileye,一個是intel,這個是三國時代,三國時代也很有意思,我們講intel很像魏國,兵多將廣,他有強大的CPU,他有5G的核心技術,還有很多其他的。Mobileye其實很像蜀國,劉備姓劉,真正的皇親國戚,Mobileye是所有三家里面唯一一家出生的時候開始就是為自動駕駛,其他的還是有其他的目的,它真正一出生的時候就是自動駕駛正宗的玩家,所以很像劉備,但是它的實力在三家里面是最弱的。另外一個就是NVIDIA,更像孫權(quán),可圈可點,偏安一隅,長于GPU,GPU一開始是為打游戲的顯卡設計的,并不是為人工智能計算,但是因為最近人工智能的計算主要核心的深度神經(jīng)網(wǎng)絡,發(fā)現(xiàn)其實CPU很適合做大規(guī)模的深度運算,所以NVIDIA現(xiàn)在成為世界最知名的人工智能的計算平臺。
另外我們看到一個趨勢,朝著自動駕駛的趨勢走,半導體廠商他們不僅僅只是做硬件,他們其實越來越多的往上層在走,越來越多的去構(gòu)建軟件的架構(gòu),我們還看到另外一種背景,傳統(tǒng)的過去只是軟件的玩家他們現(xiàn)在也朝著向軟硬一體的方向去走,比如說我們看到Google,他們現(xiàn)在傳統(tǒng)是一個軟件的,現(xiàn)在也朝著人工智能的硬件,軟硬一體去發(fā)展,包括地平線,核心創(chuàng)始人都是來自于百度、來自于Facebook,我們傳統(tǒng)也是軟件背景,也是闖入這個領域,我們認為未來要真正去解決人工智能的應用落地,我們必須從軟件到硬件,軟硬一體。
新摩爾定律,從邏輯計算到智能計算。過去半個世紀里面摩爾定律在不斷的驅(qū)動整個IT產(chǎn)業(yè)往前發(fā)展,站在2017年的時候我們繼續(xù)往前看到2045年,這里面有一個問號,這個問號的原因是說未來的路徑怎么走,因為我們看到舊的摩爾定律,再去提升它的制程,比如7個納米再往前走越來越難,英特爾官方的宣布摩爾定律變慢,不再保持以前的速率。但是我們看到新的摩爾定律在出現(xiàn),就是因為應用場景的變化,重新定義軟件的架構(gòu),導致硬件架構(gòu)的變化,核心就是人工智能的計算,從CPU時代的邏輯計算為主到現(xiàn)在深度深耕網(wǎng)絡計算的智能計算,實際上使得硬件處理器的架構(gòu)重新在被定義,摩爾定律在這個角度來講還在加速往前奔跑。順便講一下,到2045年如果摩爾定律繼續(xù)往前奔騰,每千美金能夠買到的計算量,跟現(xiàn)在人腦的計算效率差不多相當,相當于今天中國的天河二號,就是世界上最快的超級計算機的量,那個時候不但自動駕駛不是一個問題,包括我們很多很多的問題都會令人難以置信的被解決。
講到人工智能計算和人腦的區(qū)別我們思考一下,人工智能計算是解決感知、認知和決策去思考這個問題的時候我們毫無疑問需要去回顧一下、對比一下人類的大腦,是一個通用的處理器和一個專用處理器。很多人可能會想,我們?nèi)祟惔竽X看似非常聰明,是宇宙中最聰明的計算設備,看似無所不能,但是有一些時候令人費解的時候,一些很簡單的問題在座的各位不能夠立刻的去計算回答,這讓我們很費解,為什么這么簡單的問題我們不能夠訓練的回答。你把這個讀完以后你發(fā)現(xiàn)人類大腦怎么這樣,就是說你對于一個處理的效果,比如說對于這個圖像的順序,并不是按照我們通常的顯示設備逐行掃描按照順序來處理的,而是并行處理。因為我們能夠并行處理,使得我們能夠處理很復雜的場景,使得我們能夠滑雪、能夠打乒乓球、能夠處理復雜場景的問題,同時我們還可以腦補,雖然是亂的,還可以腦補的讀出來。人類大腦有很多的奧妙,對有的問題非常擅長、有的問題非常不擅長,顯然啟發(fā)我們要思考,就是人類大腦實際上解決人工智能問題是一個專用處理器。
所以考慮通用跟專有,實際上啟發(fā)我們面向自動駕駛一定要去思考。我們不是解決一個通用問題,我們是要解決環(huán)境感知、三維定位、決策控制,把這些問題要做到足夠的高效、足夠的安全、足夠的低功耗、足夠的低延時、足夠的實時,把這些問題都要解決好的話,實際上我們要直奔主題去做,而不是說去解決一個通用問題。一般來講,在硬件的架構(gòu)設計里面,如果是針對一個專用的問題去解決的話,相對通用的設計他能至少有三個數(shù)量級的效率的提升,這個是我們?nèi)ニ伎嫉姆较颉?/p>
另外一個趨勢我們關注到,從中心到邊緣,這個是什么意思呢?我們看到其實在過去我們說從桌面計算到瀏覽器產(chǎn)生了以后,很多計算都逐漸的往云端走,尤其在移動互聯(lián)網(wǎng)的時代,我們講云計算,實際上是一個從邊緣到中央,計算往中央去遷移的這么一個歷史的過程??墒俏覀兛刺煜麓笫路志帽睾?、合久必分,面向未來的萬物互聯(lián)、萬物智能的時代,我們同樣也會看到很多的計算不斷的往邊緣去走,尤其是自動駕駛,自動駕駛要求實時的反應,他足夠的安全。我們今天講高精地圖,大家有沒有想到,自動駕駛本質(zhì)來講你一定要保證它,即使在網(wǎng)絡不通的情況下它也足夠安全,大家要思考一下,高精度地圖使得這個駕駛更方便、更安全,但是我們一定要保證這個自動駕駛在完全不聯(lián)網(wǎng)的狀況下足夠的安全。所以邊緣計算、本地計算至關重要,所以說自動駕駛實際上是邊緣計算最具有挑戰(zhàn)性、最具有必要性、最重要的場景。
毫無疑問中國是世界最大的汽車市場,同時也是最大的邊緣計算的場景,我們怎么去解決這個問題?所以說回顧剛才我講的,實際上面向未來它的這個計算實際上是邊緣跟中央和中央結(jié)合的一個場景,對感知傳感數(shù)據(jù)立刻處理,同時做決策,同時這些數(shù)據(jù)經(jīng)過處理以后在云端會匯聚大數(shù)據(jù)的分析跟建模編輯他的模型,并且做大規(guī)模的仿真。所以我們思考未來,自動駕駛其實有三大核心支點,一個是算法,一個是芯片,一個是云計算。
要求就是說我們需要從全棧式的研發(fā)思路,從軟件、到系統(tǒng)軟件、到處理器架構(gòu)設計,到云端。首先我們?nèi)ニ伎甲詣玉{駛軟件設計的幾個重要的原則,從自動駕駛的角度,而不僅僅是從人工智能的角度。首先第一點,他需要透明可追溯。在座的各位如果是看過電影《西部世界》的舉個手,有很多看過。《西部世界》到了晚上發(fā)生什么事情?白天碰到那些機器人很異常的行為,到了晚上的時候都怎么樣,當這些機器人的行為不可理解的時候你會覺得很恐怖,未來人類駕馭自動駕駛汽車的時候我們一定要理解這個汽車為什么這樣行為。所以軟件系統(tǒng)設計原則里面這個透明的可追溯性非常重要,但這個問題又很難,為什么呢?我們通??吹?,在所有的軟件系統(tǒng)里面越是黑箱系統(tǒng)越準確,越是透明可追溯的越不準確,所以這是一個兩難的境地,但是怎么去保證它這是一個挑戰(zhàn),我們一定要知道,在任何的異常情況出現(xiàn)的時候,我們要知道這個汽車為什么這樣行為,然后可以控制它。
另外一個所謂端到端的學習。就是我們希望這個汽車一定是在各種場景下去經(jīng)歷,同時能夠自我更新、自我迭代、自我循環(huán)、自我提升,端到端的這種學習的能力,而不是說你簡單的教給他一堆規(guī)則他就按照這個規(guī)則走,他必須能夠經(jīng)歷各種路況,不斷的去自我提升。
第三個,一定要硬件友好。這個通常來講也是做軟件的工程師不太注意的一個地方,因為汽車它的功耗一定要低,它的響應一定要實時、一定要低延遲,對我們來講延遲超過比如說80毫秒,跟延遲300毫秒完全不一樣的,但是通常在互聯(lián)網(wǎng)行業(yè)或者在軟件系統(tǒng)里面,不是那么受到關注的一個話題。
具體怎么去提升一個人工智能的軟件系統(tǒng),他的透明可追溯性,我們有一些具體的思考跟方法,其中之一就是結(jié)合深度神經(jīng)網(wǎng)絡跟貝葉斯網(wǎng)絡因果推理的方式,具體細節(jié)不講了。這樣其實是構(gòu)建一個軟件自動駕駛的平臺,這樣一個平臺實際上是高度的模塊化,然后模塊跟模塊的耦合是高度的顆粒節(jié)性,這里面每一層的耦合實際上不是一個信號的傳遞,而是一個可理解的有語義意義的這樣一個耦合。同時模塊跟模塊之間是一個很優(yōu)美的數(shù)學框架,能夠保持它整體的自恰性。這樣一個系統(tǒng)本質(zhì)上是一個巨大的貝葉斯網(wǎng)絡,貝葉斯網(wǎng)絡里面很多的模塊是一個小的深度神經(jīng)網(wǎng)絡,這是一個我們稍微比較簡化的一個解釋。
另外一個好處,這樣一個網(wǎng)絡結(jié)構(gòu)可以很容易的去切進比如說基于規(guī)則的系統(tǒng),這個也很重要,比如紅燈停簡單的規(guī)則,當然我們還有其他的規(guī)則,一個規(guī)則的系統(tǒng)怎么樣跟一個人工智能的系統(tǒng)去完美的契合在一起。
這樣一個系統(tǒng),所謂叫端到端的學習,他不是一個被訓練的汽車,而是一個主動去學習的汽車,這樣一個學習不僅僅是說讓比如說上百萬輛的、上千萬的車在路上不斷的去跑、去學習,但是這個是不夠的,為什么呢?因為有很多很多的這種在仿真的系統(tǒng)里面,通過仿真系統(tǒng)可以仿真它的里程數(shù),可以說比我們在真實數(shù)據(jù)里面的里程數(shù)要高2—3個數(shù)量級,比如我們在真實的道路上面可以去仿真測試上億公里的數(shù)據(jù),但是在仿真的系統(tǒng)里面我們需要去測試上千億公里的數(shù)據(jù),當然一個事實是說,今天比如說造原子彈,其實已經(jīng)不需要做實驗了,完全是在仿真上做,未來的自動駕駛這點也非常重要,這樣讓很多在真實數(shù)據(jù)里面其實你不能夠暴露的很多邊界條件,你都在里面被充分的去測試,這個非常重要,你難以想象在現(xiàn)實的世界里面怎么去測試一輛汽車在這種非正常的情況下面他怎么去控制,你控制的算法這種邊界的安全性怎么樣。
前面都是軟件,基于這樣的軟件框架我們要去設計自動駕駛的自動處理器的系統(tǒng),我們現(xiàn)在是整個的路線圖,叫BPU,今年我們會面向市場去推出來的高斯架構(gòu)的面向L2的駕駛,明年年底我們會在臺基電偏更加高制程的架構(gòu)面向3G自動駕駛和4G有限場景的處理器,當然是更強大的感知。未來其實計算的焦點不在感知,未來其實計算的焦點在決策,復雜場景的決策的難度更大,現(xiàn)在大家沒有充分的去估計,比如說我們大家知道下圍棋,下AlphaGo,這個計算量非常大,現(xiàn)在AlphaGo今年Google其實用TPU去支撐這個強大的計算,但它是一個博弈的,就是兩個在博弈的情況??墒亲詣玉{駛是一個控制系統(tǒng),實際上跟周圍一百個行人跟一百輛車在博弈的過程。比如說我在一個車道線上開車,如果我要換道,我打信號給他,旁邊的車看讓不讓,他如果不讓再接著開,這是一個不斷博弈的過程,也這么多的互動式的決策過程。面向未來我們在城市道路下面自動駕駛其實決策不管是軟件算法、還是我們硬件處理器的架構(gòu),實際都是巨大的挑戰(zhàn)。
地平線我們最近從去年開始也跟intel也有一系列的合作,包括新的架構(gòu)去加速深度神經(jīng)網(wǎng)絡的計算,當然最近intel也成為我們的一個投資方。
這個是我們今年成功的,只是用2瓦一個超級功耗的處理器,但它是一個高效的視覺處理器,它能夠處理高清的視頻,每秒鐘30幁,可以同時檢測跟蹤識別250個目標,所以是非常復雜場景下的強大的計算機視覺的處理器。這樣一款處理器用在這種場景下面,比如說在國外通常你看到的這種檢測都是那樣的路,這是在高速路況上,這都是用2瓦功耗的處理器去處理。
我下面給大家介紹一下我們實際上下一款的處理器,就是明年推出來的這款處理器,面向自動駕駛,其實最核心的思想是什么呢?它會是世界上第一款像素級的處理器,會對每一個項目做精確的計算,使得它突破傳統(tǒng)的檢測框的框架,它對任何的場景都能做細致的包括路牌、甘蔗、樹木包括樹木遮擋的人都可以精確的惜別,這樣的處理能力實際上低功耗實時的計算難度非常大。這個是在北京的路況上面,因為北京的這種車經(jīng)常搶道換道,一個挑戰(zhàn)性就是說,在換道的時候哪怕車只要露出一個小角,你就立刻把它捕捉到,這非常重要。這種像素級的處理,因為整個車只露出一個小角,這種像素級的處理就至關重要,比如旁邊的車突然冒出來我們就能立刻捕捉到。
這樣一款處理器適用于這種復雜的城市工況,很重要的一點比如對行人,行人重要的不是知道他在哪兒,重要的是他在下一個5秒鐘往哪個地方移動,這個一動不只是檢測一個框、檢測這個人在哪里,你要檢測這個人比如說他的臉的朝向,因為大概率人不會朝腦袋后面走,你還要檢測他的動態(tài),比如說他的動態(tài)是怎么樣的,然后去預測他在下一個5秒鐘往什么地方走,這是通過處理器一定要去面對的一個問題。比如中國像這種開著摩托車倒著走,都是我們要去面對的這種情況。
未來的自動駕駛實際上它是跑在四個輪子上面的超級計算、是跑在四個輪子上面的數(shù)據(jù)中心,所以這個里邊從地平線的角度來講,愿意去跟業(yè)界的同仁一起去合作,我們希望能夠提供的是在四個輪子上面我們?nèi)ヌ峁┻@種洶涌澎湃的計算力,去幫助你們解決你們在共享出行服務、在自動駕駛方面所面對的挑戰(zhàn)。
謝謝各位!