“圍剿”Nvidia,國產(chǎn)AI芯片的崛起之路

1.Nvidia的AI計算演進

故事要從2012年說起,那年的計算機視覺界的大賽ILSVRC,Hinton和弟子Alex用兩臺NVIDIA?GTX580顯卡,跑了個離第二名很遠的第一,AlexNet名聲大噪,N卡也成了AI界的標配,7年過去了,AI界的訓(xùn)練和推理依然依賴著Nvidia。

Nvidia的核心計算架構(gòu),一直保持著快速更新迭代,深度學(xué)習大火之后更是進入了一年一迭代的速度。而每個計算架構(gòu)產(chǎn)生產(chǎn)品的速度就更快了。Kepler、Maxwell之后涌現(xiàn)了許多耳熟能詳?shù)耐嫔疃葘W(xué)習必備好卡,如TK1、GTX?980Ti、1080Ti...

編輯搜圖

近10年Nvidia的計算架構(gòu)演變?

2015年,Nvidia全力進軍深度學(xué)習計算,GeForce?GTX?TITAN?X是云側(cè)深耕深度學(xué)習的一款重物。面向終端,更推出了嵌入式超級計算機Jetson?TX1,讓嵌入式AI端計算AI成為可能,1Tflops算力的邊緣芯片,相比云側(cè),成本降到了399美金,AI的端計算產(chǎn)品化,迎來了初春。

2016年,第11代架構(gòu)Pascal誕生,Pascal架構(gòu)上誕生了P100,P4,P40等目前各AI廠里仍在使用的好卡?;赑100的第一臺AI超算DGX-1,也在這年問世。

2017,快馬加鞭推出Volta架構(gòu),Tesla?V100就是代表力作。

2018,Turing架構(gòu)、而基于16張V100的DGX-2的超算平臺,算力達到了2petaFlops、Jeston?Xavier...Nvidia依舊追求著云+端的超強算力路線,隨之而漲的還有價格。

編輯搜圖

受益于深度學(xué)習,股價翻了17.89倍

除了深度學(xué)習,還有什么成就了Nvidia的大爆發(fā)?生態(tài)+易獲取度。早期學(xué)術(shù)玩家設(shè)計的訓(xùn)練框架直接支持GPU,加上Nvidia的cudnn,tensorRT加速,作為學(xué)術(shù)跟進者,產(chǎn)業(yè)開發(fā)者,為了快速出成果,最好的方法就是享用已有的基礎(chǔ)成果。一張不差的N卡,4G顯存,caffe,一個可通美國的網(wǎng)絡(luò),在2014年到2016年,這樣的易獲取度高到在家就可以搭建一個人工智能實驗室。所以,是深度學(xué)習+生態(tài)+易獲取度造就了Nvidia?AI。

2019,格局在變化,東方在崛起。

2.圍剿

(1)Google?TPU

2016年,圍棋人機大戰(zhàn)。Google用GPU調(diào)教,用TPU實戰(zhàn)的AlphaGo大勝李世石。這次大戰(zhàn)讓google、AlphaGo、TPU一炮而紅,而躁動的,還有投資界,焦慮的資金涌入AI產(chǎn)業(yè),造就了AI全產(chǎn)業(yè)鏈的投資狂熱,這對后續(xù)國產(chǎn)芯片公司的崛起,也帶來了積極的影響。2016年之前的AI,只能說是學(xué)術(shù)AI,而2016年是真正意義的產(chǎn)業(yè)AI元年。

編輯搜圖

請點擊輸入圖片描述

TPU又經(jīng)歷了多次迭代,2018年,TPU更新到3.0,Cloud?TPU正式對外開放,使用價格6.5美元/小時,而國內(nèi)玩家需要上google?cloud?platform,門檻要比買一張GPU高得多。雖然產(chǎn)品成熟、配合著Tensorflow,生態(tài)成熟,但不容易越過的網(wǎng)絡(luò),訓(xùn)練中數(shù)據(jù)安全問題等,讓TPU在中國的易獲得度極低。

而應(yīng)對邊緣計算,Edge?TPU的問世讓邊緣AI產(chǎn)品有了新選擇,產(chǎn)品的競爭力不可否認,但在市場化上,對中國市場的不積極,意味著失去AI的大半壁江山。

(2)寒武紀

回到2014年,陳天石、陳云霽兄弟在學(xué)術(shù)上連續(xù)開掛,提出國際首個深度學(xué)習處理器架構(gòu)DianNao(電腦),獲得處理器架構(gòu)領(lǐng)域頂會ASPLOS?2014最佳論文獎,這是亞洲第一次獲此殊榮。接著,他們又提出首個多核深度學(xué)習處理器學(xué)術(shù)架構(gòu)DaDianNao(大電腦),獲得處理器架構(gòu)領(lǐng)域另外一個頂級國際學(xué)術(shù)會議MICRO?2014最佳論文獎,而這是美國以外的國家第一次獲得。

編輯搜圖

請點擊輸入圖片描述

2016年,陳天石、陳云霽兄弟創(chuàng)立了中科寒武紀,開啟學(xué)術(shù)轉(zhuǎn)化之路。寒武紀是地球演變中生物大爆發(fā)的時期,而在AI時代,他們的寒武紀肩負著引領(lǐng)AI產(chǎn)業(yè)大爆發(fā)的使命。

2016到2018年,在終端處理器IP上,寒武紀推出了Cambricon-1A/1H/1M,被用到了華為麒麟系列芯片的NPU上。而云端計算卡,推出了MLU?100、思元MLU270等,2年,實現(xiàn)了端和云芯片產(chǎn)品的落地,從算力上看,思源MLU270大幅超越NVIDIA?P100。

(3)華為

看AI落地,先看安防,而說起國內(nèi)AI安防應(yīng)用芯片,需先從海思安防端計算芯片說起。

2017年底,海思推出了Hi3559AV100,80美金的售價,對應(yīng)4Tflops的算力,具備16路1080p視頻解碼能力,AI廠子們玩起了16路人臉識別,也就是單路芯片成本降到了5美金,無論是用于端還是中心,這都是一個極具誘惑力的生意。而NVIDIA的TX2是2Tflops算力,399美金售價,簡單粗暴的算,性價比是TX2的10倍,這是一次降維打擊,盡管NVIDIA?xavier、nano等端計算產(chǎn)品在提升,但性價比上,根本無法和海思抗衡。當某種基礎(chǔ)產(chǎn)品價格大幅下降的時候,才是整個產(chǎn)業(yè)發(fā)生變化的基礎(chǔ),而這個變化,就是讓AI普惠化,高昂的價格,從來都是普惠的敵人。

再說云端訓(xùn)練及推理芯片,2018年10月,華為重磅發(fā)布昇騰910,單芯片算力吊打NVIDIA?V100,集群吊打Google?TPU3.0?Pod,到這一步,可以說國產(chǎn)AI芯片已經(jīng)逆襲,雖然昇騰910的產(chǎn)品化轉(zhuǎn)化、應(yīng)用生態(tài)仍待完善,但AI芯片產(chǎn)業(yè),格局初定。

編輯搜圖

請點擊輸入圖片描述

編輯搜圖

資料:來源于華為發(fā)布會

(4)圍剿

如果說華為、寒武紀是主力,那么還有一眾援兵,得益于產(chǎn)業(yè)快速發(fā)展,百度、比特大陸、瑞芯微、依圖、平頭哥、地平線等等公司的專用AI芯片產(chǎn)品遍地開花,許多AI公司、互聯(lián)網(wǎng)公司正加碼投入AI芯片戰(zhàn)斗中,覆蓋從云到端、從訓(xùn)練到推理、從安防到智慧城市應(yīng)用、從B端到C端應(yīng)用。

AI苦N久矣,舊的AI芯片壁壘已破,國產(chǎn)AI芯片崛起而奪回國內(nèi)市場、走出海外,這就是一條必然的路。

3.附:關(guān)于計算智能

從AI功能上進行劃分,個人認為可劃分為計算智能、感知智能、認知智能、決策智能。計算智能可以粗略地認為就是計算,包含了硬件計算和軟件算法計算,計算智能的提升,既需要半導(dǎo)體的發(fā)展,也需要算法的優(yōu)化支撐,共同形成了AI領(lǐng)域的計算智能。

編輯搜圖

AI四分類

2018年安博會,華為推出了iCAN智能指數(shù),模仿智能駕駛,提出了多個智能標準等級。

編輯搜圖

iCAN智能指數(shù)=f(算力,算法,協(xié)同)

來源:華為技術(shù)有限公司

編輯搜圖

iCAN智能指數(shù)(Intelligence?Index)=F(算力、算法、數(shù)據(jù)、場景)

來源:華為技術(shù)有限公司

無論是在華為演進的兩張iCAN智能指數(shù)中,還是在計算智能中,算力是最重要的衡量指標,也是AI的基礎(chǔ)。算力可由多個維度來衡量:

(1)性能

可以通過運算速度來衡量,如端側(cè)芯片單顆海思Hi3559A芯片可以提供4TFLOPS算力,這里的TFLOPS是Tera?Floating-point?operations?per?second,而這里的算力還需加一個前提,主要分為雙精度(FP64)、單精度(FP32)、半精度(FP16)、整型計算(INT8)。因為采用不同位數(shù)的浮點數(shù)的表達精度不一樣,造成的計算誤差也不一樣,雙精度固然好,但在一些應(yīng)用,比如多媒體和圖形處理計算,32位的單精度浮點計算已經(jīng)足夠了,對于要求精度更低的機器學(xué)習等一些應(yīng)用來說,半精度16位浮點數(shù)就可以甚至8位浮點數(shù)就已經(jīng)夠用了。

(2)密度

可以從AI芯片的工藝角度衡量,如海思Hi3559A芯片采用14nm工藝,昇騰310芯片12nm工藝。NVIDIA?V100?采用12nm工藝,昇騰310則僅采用7nm工藝,制作工藝越小,單位面積晶體管數(shù)量越多,密度越大。

(3)功耗

功耗是芯片產(chǎn)品關(guān)注的重點指標,尤其是端計算芯片,功耗的大小配合電池能力決定了續(xù)航能力,從而決定了可解鎖場景,功耗也是衡量芯片算力的重要標準,如Hi3559A芯片典型功耗為3w,NVIDIA?V100為250w

(4)算力能耗比

性能和能耗的比值越大,說明單位功耗可計算的次數(shù)越多,這是倡導(dǎo)綠色AI衡量的重要指標,畢竟有些模型跑一下的碳排放量已經(jīng)非常不環(huán)保了。比如Hi3559A的算力能耗比就達到4T/3w=1.33Tflops/w。

4.附:第一張AI算力天梯圖

很多AI從業(yè)者一定遇到過對比多款加速卡或者芯片性能的時候,苦于找不到直觀簡單的資料,類似GPU的天梯圖,所以制作了第一張常用芯片/加速卡產(chǎn)品的AI算力天梯圖,后續(xù)將繼續(xù)詳細和完善。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容