英偉達Nvidia 2018 GTC大會整理

本次英偉達GTC大會總共三天,有不少贊助商:


贊助商

總體參會感受上,我總結為如下幾點

  • 華為、百度等企業(yè),基本上他們的AI計算平臺既有部署在公有云上的,也有直接為企業(yè)部署私有云的。另外像華為、百度等,也銷售自己獨立的服務器。

  • 大部分企業(yè)是以展示自己的服務器為主,軟件只是一個配套產品,有的展示,有的不展示。

  • 提到AI計算平臺的企業(yè)總體不多,大概有這幾家:華為、浪潮、百度、阿里、還有兩家聯(lián)合展臺。

  • 提到AutoML的也不多,其中百度是在其中一個培訓會議中講解他們的PandlePandle時,提到他們有專門的AutoDL;另外一個就是控智立方,他們也是完全自主研發(fā)的,叫DarwinML,主要采用進化算法技術,實現機器學習以及深度學習的自動建模。

  • 很大一部分的企業(yè)是提供面向獨立場景解決方案的。比如自動駕駛、機器人、人物視頻動作分析、虛擬現實等。其中的代表應該就是騰訊AI了。

在技術趨勢上,以及在平臺建設上,主要有以下特點

  • 一個完整的AI整體解決方案,越來越多的體現在如下幾個方面(計算要快,通信要快,存儲要快)

  • 大型的GPU訓練集群的支持

  • 高速低延遲通信網絡的支持,如NVLink,RDMA等

  • 高速網絡存儲的支持

  • 大數據、云平臺、分布式存儲的結合,AI計算平臺與這些結合在一起,構成一個比較完整的生態(tài)圖

  • AI計算平臺的建設,以及集群監(jiān)控管理平臺的建設

  • 分布式AI計算的能力,其中包括同步訓練和異步訓練的支持

  • 大規(guī)模異構計算集群的支持

  • 深度強化學習、遷移學習的研究趨于熱門(一切都是為了降低人力成本,降低使用復雜度)

  • AutoML,AutoDL開始流行(主要體現在百度和探智立方兩家公司上)

  • 模型優(yōu)化,以及模型壓縮技術的流行(因為越來越多的模型需要運行在一些端到端設備上,模型太大會造成在這些設備上不可實現)。

  • GPU的并行計算,以及共享計算的支持。有時候需要多個GPU同時計算;有時候是多個服務都需要GPU,但是并不需要獨占整個GPU,這個時候為了提高GPU的利用率,需要共享計算的支持

  • AI相關技術的開源成為一種趨勢,英偉達、intel,百度等公司都公布了大量的開源組件。

在AI軟件計算平臺上,主要幾家的平臺建設方式如下

  • 百度:完全自主研發(fā),計算框架是公司自己的PandlePandle,也是國內唯一一家自主研發(fā)計算框架的公司。百度提供了一個完整的AI技術體系:

    • 訓練框架、推理框架、可視化、AutoDL,AI Studio,以及強化學習工具等

    • 提供服務器、高速網絡、高速存儲、并行、異構等的支持

    • 將百度前期在具體行業(yè)的AI建模成果,逐步集成到PandlePandle中,并將很多的模型應用開源出來,并特別說明會提供官方支持。

  • 阿里:主要是他們的阿里PAI,該平臺主推的計算框架是tensorflow。

    • 硬件方面,同樣提供服務器、高速網絡等的支持

    • 內部包含了PAI-EAS,PAI-TF,PAI-OCR,異構團隊等

    • 其中PAI-TF主要是針對tensorflow,并對其進行封裝和優(yōu)化

    • 模型優(yōu)化等

    • 支持公有云和私有云

  • 浪潮:主要計算框架是tensorflowcaffe,平臺應該也還在建設中,目前并不完備

    • 他們同樣對支持的兩款計算框架,做了對應的封裝,分別叫作Caffe-MPITensorflow-Opt
  • 華為:與阿里類似,但起步較晚,目前華為的MLSDLS正在快速發(fā)展。

    • 硬件方面,類似阿里

    • 平臺方面,目前已支持tensorflow、MXNetCaffe

    • 同樣提供基于這些計算框架的封裝庫:moxing

    • 支持公有云和私有云

  • AWS:調研的不多,主要是從他們的講座中,知道一些

    • AWS主推MXNet,并對它做了很多優(yōu)化和封裝。

    • AWS公布了很多行業(yè)應用數據集。

會場調研

華為

華為的深度學習平臺,我可以通過現場的筆記本進行操作,發(fā)現他們展示的深度學習平臺跟華為官網上的DLS不大一樣,經詢問,這是他們的最新版本,與官網的整體設計風格是一致,主要是加了一些功能,另外對有些功能做了整合。

華為這次展示的其中一項是自己的服務器,并且深度學習服務就是獨立部署在這臺服務器上的。

2018-11-23-15-32-30.jpg

主要功能大致如下:

  • 總覽:與官網類似,有一個總體的開發(fā)流程示意圖,然后是各類作業(yè)資源的運行情況統(tǒng)計圖。

  • 代碼開發(fā):就是jupyter notebook,用戶可以建立多個開發(fā)環(huán)境。

  • 數據管理:就是數據集管理,華為是專門為數據集做了這個維護界面,應該是讓用戶在選擇時更加方便。

  • 模型訓練:兩個TAB頁,一個是訓練任務列表頁面,可以點進去查看任務明細;一個是可視化頁面,主要是針對Tensorboard。

  • 模型管理:也是多個TAB頁,一個是用戶自己的模型管理,一個是平臺內置的模型庫。

  • 推理服務:他們的查看服務詳情,可以直接出現推理操作界面,比如如果是一個圖片類的推理,界面中可以直接上傳圖片。

  • 資源監(jiān)控:我在第一天看他們調試環(huán)境的時候,應該是以管理員賬號登錄的,有這個功能。后來我自己操作的時候,看不到這個功能。應該是只針對管理員開放這個功能。

浪潮

浪潮有兩個展臺,分別代表了浪潮以及浪潮商用機器兩家公司。后者應該是個子公司。下面分別簡單介紹一下。

其中浪潮展臺主要展示了兩部分,一個是他們的硬件服務器架構體系,一個就是他們的AI軟件解決方案平臺。

126760746251263930.jpg

展臺所描述的與他們官網上的說明基本是一致的,自下而上描述:

  • 最底層就是硬件服務器環(huán)境(有GPU訓練集群、有數據集的存儲集群、也有云存儲服務)

  • 往上一層,就是他們的AIStationTeye。這個在之間的調研中研究過,其中AIStation就是計算平臺,專門負責應用環(huán)境、訓練任務、作業(yè)調度、資源監(jiān)控等。而Teye全稱叫應用特征監(jiān)控分析系統(tǒng),從官網上看到的就是針對GPU、CPU等的的實時運行分析。

  • 再往上,就是他們針對計算框架的封裝,比如Caffe-MPI和Tensorflow-Opt,主要目的應該就是為了簡化開發(fā)流程,以及可以與平臺深度集成。這是一把雙刃劍,做的好的話,用戶會非常樂意使用,但是做的不好的話,也會成為限制平臺發(fā)展壯大的瓶頸。

  • 最上層就是行業(yè)AI解決方案,是面向特定場景應用的。這幾乎在所有AI平臺中都有,也是少不了的。

關于Caffe-MPI和Tensorflow-Opt,其實是涉及到一個問題,就是需不需要對第三方的計算框架做一些優(yōu)化封裝。優(yōu)化封裝的好處是我們可以提供更高一層的抽象,大大簡化用戶開發(fā);并且可以集成一些我們自己的特色。而缺點是,一方面在某些程度上增加了用戶的學習成本,一方面因為計算框架太多,需要適配的框架太多。

就目前來說,華為、百度、以及浪潮都是對計算框架做了封裝的。我個人感覺是需要做這一步的,因為未來的工具,一定是越簡單用的人越多。

下面再提一下浪潮商用機器這個展臺,這也是一個獨立的公司,是浪潮IBM合資的公司,其中浪潮占51%的股份。這個公司主要是用來銷售IBM的Power AI體系下的相關軟硬件,其中硬件部分我沒細問,但是軟件平臺部分就完全是這個Power AI。特別說明一點,他們的解決方案架構圖中提到了H2O ML。

百度

感覺真正的代表了AI整體解決方案,展臺展示了他們的服務器,以及整個百度AI平臺軟件棧。

  • 有硬件支持

  • 有自主研發(fā)的計算框架支持

  • 有高速存儲服務

  • 有大量經過生產檢驗的真實AI模型

騰訊

騰訊展臺主要展示的是他們在AI具體領域內的應用,也就是說他們提供的是具體場景下的解決方案服務。比如視覺、語音、文字、視頻等方便的應用服務。

騰訊也有自己的機器學習平臺,但是在展臺中并沒有展示。

騰訊AI Lab,目前有80多名研究員,300多名工程師(講座里提到的)。

軟硬聯(lián)合的兩個代表

這里主要介紹兩個展臺,他們分別都是兩家公司拼在一起,組成一個展臺的。特點就是硬件一家公司,軟件一家公司,兩家一起拼成一個完整的解決方案。

越海揚波+聯(lián)科

其中越海揚波是專門賣服務器的,聯(lián)科CHESS平臺主要是用來做集群管理以及任務調度的。如下圖:

2018-11-23-16-19-58.jpg

我大致看了下,在集群管理上做的比較多,AI方面體現的比較少,主要就是GPU的監(jiān)控。

AMAX+Mellanox+中科類腦+StorSwift

這次大會,一個非常深刻的印象就是對于AI來說,需要強大的硬件服務器,需要低延遲的高速網絡,需要分布式存儲,需要計算平臺,幾乎每一家提供整體解決方案的企業(yè),都或多或少的體現了這幾個方面!

這一個展臺就是應該是合作方最多的,AMAX賣服務器的,Mellanox賣交換機等通信設備的,中科類腦賣軟件平臺的,StorSwift賣高性能網絡存儲的。

其中 中科類腦就在合肥,好像在中科大先研院里面。

探智立方

這是一家專門做AutoML的,他們提供的平臺叫作DarwinML,與我之間對AutoML的研究相同,主要是為了簡化建模過程。

2018-11-23-18-22-30.jpg

他們該平臺的主要特點是:

  • 完全自主研發(fā)的

  • 提供完整的模型基因庫(應該是結合了機器學習算法以及深度學習算法,類似提供組建模型的積木)

  • 核心使用進化算法,通過幾代的進化,就能得出比人類建模效果好很多的模型。

  • 并行計算的能力。

  • 他們的平臺也提供模型在線服務的功能。

總體而言,參加這次GTC大會,收獲不小,開闊了眼界!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容