本次英偉達GTC大會總共三天,有不少贊助商:

總體參會感受上,我總結為如下幾點:
華為、百度等企業(yè),基本上他們的
AI計算平臺既有部署在公有云上的,也有直接為企業(yè)部署私有云的。另外像華為、百度等,也銷售自己獨立的服務器。大部分企業(yè)是以展示自己的服務器為主,軟件只是一個配套產品,有的展示,有的不展示。
提到AI計算平臺的企業(yè)總體不多,大概有這幾家:華為、浪潮、百度、阿里、還有兩家聯(lián)合展臺。
提到
AutoML的也不多,其中百度是在其中一個培訓會議中講解他們的PandlePandle時,提到他們有專門的AutoDL;另外一個就是控智立方,他們也是完全自主研發(fā)的,叫DarwinML,主要采用進化算法技術,實現機器學習以及深度學習的自動建模。很大一部分的企業(yè)是提供面向獨立場景解決方案的。比如自動駕駛、機器人、人物視頻動作分析、虛擬現實等。其中的代表應該就是
騰訊AI了。
在技術趨勢上,以及在平臺建設上,主要有以下特點:
一個完整的AI整體解決方案,越來越多的體現在如下幾個方面(計算要快,通信要快,存儲要快)
大型的GPU訓練集群的支持
高速低延遲通信網絡的支持,如NVLink,RDMA等
高速網絡存儲的支持
大數據、云平臺、分布式存儲的結合,AI計算平臺與這些結合在一起,構成一個比較完整的生態(tài)圖
AI計算平臺的建設,以及集群監(jiān)控管理平臺的建設
分布式AI計算的能力,其中包括同步訓練和異步訓練的支持
大規(guī)模異構計算集群的支持
深度強化學習、遷移學習的研究趨于熱門(一切都是為了降低人力成本,降低使用復雜度)
AutoML,AutoDL開始流行(主要體現在百度和探智立方兩家公司上)
模型優(yōu)化,以及模型壓縮技術的流行(因為越來越多的模型需要運行在一些端到端設備上,模型太大會造成在這些設備上不可實現)。
GPU的并行計算,以及共享計算的支持。有時候需要多個GPU同時計算;有時候是多個服務都需要GPU,但是并不需要獨占整個GPU,這個時候為了提高GPU的利用率,需要共享計算的支持
AI相關技術的開源成為一種趨勢,英偉達、intel,百度等公司都公布了大量的開源組件。
在AI軟件計算平臺上,主要幾家的平臺建設方式如下:
-
百度:完全自主研發(fā),計算框架是公司自己的PandlePandle,也是國內唯一一家自主研發(fā)計算框架的公司。百度提供了一個完整的AI技術體系:
訓練框架、推理框架、可視化、AutoDL,AI Studio,以及強化學習工具等
提供服務器、高速網絡、高速存儲、并行、異構等的支持
將百度前期在具體行業(yè)的AI建模成果,逐步集成到PandlePandle中,并將很多的模型應用開源出來,
并特別說明會提供官方支持。
-
阿里:主要是他們的阿里PAI,該平臺主推的計算框架是
tensorflow。硬件方面,同樣提供服務器、高速網絡等的支持
內部包含了PAI-EAS,PAI-TF,PAI-OCR,異構團隊等
其中PAI-TF主要是針對tensorflow,并對其進行封裝和優(yōu)化
模型優(yōu)化等
支持公有云和私有云
-
浪潮:主要計算框架是
tensorflow和caffe,平臺應該也還在建設中,目前并不完備- 他們同樣對支持的兩款計算框架,做了對應的封裝,分別叫作
Caffe-MPI和Tensorflow-Opt
- 他們同樣對支持的兩款計算框架,做了對應的封裝,分別叫作
-
華為:與阿里類似,但起步較晚,目前華為的
MLS和DLS正在快速發(fā)展。硬件方面,類似阿里
平臺方面,目前已支持
tensorflow、MXNet、Caffe同樣提供基于這些計算框架的封裝庫:
moxing支持公有云和私有云
-
AWS:調研的不多,主要是從他們的講座中,知道一些
AWS主推
MXNet,并對它做了很多優(yōu)化和封裝。AWS公布了很多行業(yè)應用數據集。
會場調研
華為
華為的深度學習平臺,我可以通過現場的筆記本進行操作,發(fā)現他們展示的深度學習平臺跟華為官網上的DLS不大一樣,經詢問,這是他們的最新版本,與官網的整體設計風格是一致,主要是加了一些功能,另外對有些功能做了整合。
華為這次展示的其中一項是自己的服務器,并且深度學習服務就是獨立部署在這臺服務器上的。

主要功能大致如下:
總覽:與官網類似,有一個總體的開發(fā)流程示意圖,然后是各類作業(yè)資源的運行情況統(tǒng)計圖。
代碼開發(fā):就是
jupyter notebook,用戶可以建立多個開發(fā)環(huán)境。數據管理:就是數據集管理,華為是專門為數據集做了這個維護界面,應該是讓用戶在選擇時更加方便。
模型訓練:兩個TAB頁,一個是訓練任務列表頁面,可以點進去查看任務明細;一個是可視化頁面,主要是針對Tensorboard。
模型管理:也是多個TAB頁,一個是用戶自己的模型管理,一個是平臺內置的模型庫。
推理服務:他們的查看服務詳情,可以直接出現推理操作界面,比如如果是一個圖片類的推理,界面中可以直接上傳圖片。
資源監(jiān)控:我在第一天看他們調試環(huán)境的時候,應該是以管理員賬號登錄的,有這個功能。后來我自己操作的時候,看不到這個功能。應該是只針對管理員開放這個功能。
浪潮
浪潮有兩個展臺,分別代表了浪潮以及浪潮商用機器兩家公司。后者應該是個子公司。下面分別簡單介紹一下。
其中浪潮展臺主要展示了兩部分,一個是他們的硬件服務器架構體系,一個就是他們的AI軟件解決方案平臺。

展臺所描述的與他們官網上的說明基本是一致的,自下而上描述:
最底層就是硬件服務器環(huán)境(有GPU訓練集群、有數據集的存儲集群、也有云存儲服務)
往上一層,就是他們的
AIStation和Teye。這個在之間的調研中研究過,其中AIStation就是計算平臺,專門負責應用環(huán)境、訓練任務、作業(yè)調度、資源監(jiān)控等。而Teye全稱叫應用特征監(jiān)控分析系統(tǒng),從官網上看到的就是針對GPU、CPU等的的實時運行分析。再往上,就是他們針對計算框架的封裝,比如Caffe-MPI和Tensorflow-Opt,主要目的應該就是為了簡化開發(fā)流程,以及可以與平臺深度集成。這是一把雙刃劍,做的好的話,用戶會非常樂意使用,但是做的不好的話,也會成為限制平臺發(fā)展壯大的瓶頸。
最上層就是行業(yè)AI解決方案,是面向特定場景應用的。這幾乎在所有AI平臺中都有,也是少不了的。
關于Caffe-MPI和Tensorflow-Opt,其實是涉及到一個問題,就是需不需要對第三方的計算框架做一些優(yōu)化封裝。優(yōu)化封裝的好處是我們可以提供更高一層的抽象,大大簡化用戶開發(fā);并且可以集成一些我們自己的特色。而缺點是,一方面在某些程度上增加了用戶的學習成本,一方面因為計算框架太多,需要適配的框架太多。
就目前來說,華為、百度、以及浪潮都是對計算框架做了封裝的。我個人感覺是需要做這一步的,因為未來的工具,一定是越簡單用的人越多。
下面再提一下浪潮商用機器這個展臺,這也是一個獨立的公司,是浪潮跟IBM合資的公司,其中浪潮占51%的股份。這個公司主要是用來銷售IBM的Power AI體系下的相關軟硬件,其中硬件部分我沒細問,但是軟件平臺部分就完全是這個Power AI。特別說明一點,他們的解決方案架構圖中提到了H2O ML。
百度
感覺真正的代表了AI整體解決方案,展臺展示了他們的服務器,以及整個百度AI平臺軟件棧。
有硬件支持
有自主研發(fā)的計算框架支持
有高速存儲服務
有大量經過生產檢驗的真實AI模型
騰訊
騰訊展臺主要展示的是他們在AI具體領域內的應用,也就是說他們提供的是具體場景下的解決方案服務。比如視覺、語音、文字、視頻等方便的應用服務。
騰訊也有自己的機器學習平臺,但是在展臺中并沒有展示。
騰訊AI Lab,目前有80多名研究員,300多名工程師(講座里提到的)。
軟硬聯(lián)合的兩個代表
這里主要介紹兩個展臺,他們分別都是兩家公司拼在一起,組成一個展臺的。特點就是硬件一家公司,軟件一家公司,兩家一起拼成一個完整的解決方案。
越海揚波+聯(lián)科
其中越海揚波是專門賣服務器的,聯(lián)科的CHESS平臺主要是用來做集群管理以及任務調度的。如下圖:

我大致看了下,在集群管理上做的比較多,AI方面體現的比較少,主要就是GPU的監(jiān)控。
AMAX+Mellanox+中科類腦+StorSwift
這次大會,一個非常深刻的印象就是對于AI來說,需要強大的硬件服務器,需要低延遲的高速網絡,需要分布式存儲,需要計算平臺,幾乎每一家提供整體解決方案的企業(yè),都或多或少的體現了這幾個方面!
這一個展臺就是應該是合作方最多的,AMAX賣服務器的,Mellanox賣交換機等通信設備的,中科類腦賣軟件平臺的,StorSwift賣高性能網絡存儲的。
其中 中科類腦就在合肥,好像在中科大先研院里面。
探智立方
這是一家專門做AutoML的,他們提供的平臺叫作DarwinML,與我之間對AutoML的研究相同,主要是為了簡化建模過程。

他們該平臺的主要特點是:
完全自主研發(fā)的
提供完整的模型基因庫(應該是結合了機器學習算法以及深度學習算法,類似提供組建模型的積木)
核心使用
進化算法,通過幾代的進化,就能得出比人類建模效果好很多的模型。并行計算的能力。
他們的平臺也提供模型在線服務的功能。
總體而言,參加這次GTC大會,收獲不小,開闊了眼界!