GTC 2018

GTC 2018 沒(méi)有新的消費(fèi)級(jí)顯卡發(fā)布,這個(gè)是一個(gè)令人失望的地方。對(duì)于有錢(qián)人來(lái)說(shuō),到不是問(wèn)題。在硬件方面,Nvidia 基于V100的架構(gòu)上,發(fā)布了內(nèi)存加倍的Quadro GV100顯卡,新的Telsa V100. DGX-2 世界上計(jì)算能力最強(qiáng)的顯卡(2P flops, 512 GB HDM2, 399K$).

圖片發(fā)自簡(jiǎn)書(shū)App
圖片發(fā)自簡(jiǎn)書(shū)App

其他可圈可點(diǎn)的主要在軟件上。

在醫(yī)療方面 Clara - Medical Imaging Supercomputer.

琢磨來(lái)琢磨去覺(jué)得是Nvidia 在DGX workstation 上的software stack, 為了給傳統(tǒng)的醫(yī)療影像行業(yè)注入新的生命力。老黃用了一個(gè)超聲設(shè)備為例子:

  • 傳統(tǒng)的超聲設(shè)備。也就是已經(jīng)在醫(yī)院里面部署的舊的設(shè)備。
  • 數(shù)據(jù)傳輸?shù)絅vidia Clara醫(yī)學(xué)影像工作站
  • 自動(dòng)心內(nèi)膜分割 (deep learning, semantic segmentation)
  • 射血分?jǐn)?shù)計(jì)算(AutoEF)
  • 3D 心臟建模和3D繪制 (這個(gè)是如何搞得?2D 超聲掃描到3D? 還是至少有雙平面探頭?老黃大概也不懂超聲,沒(méi)有講明白。)

如果從software stack 來(lái)看的話,GPU server 提供硬件計(jì)算能力,GPU containers/VGPU 可以讓GPU server 在云端scale up, 如果數(shù)據(jù)的傳輸不再是瓶頸的話。Cuda 提供通用的高性能計(jì)算能力,可以用于傳統(tǒng)的醫(yī)學(xué)影像算法。cudnn和tensorrt一起提供AI的推理能力(比如用于semantic segmentation 和建模)。 OpenGL 和RTX 用于3D rendering。 讓超聲這個(gè)傳統(tǒng)的成像模式老樹(shù)發(fā)新芽。最后這些能力體現(xiàn)在AutoEF 等等自動(dòng)測(cè)量,和通過(guò)3D 幫助醫(yī)生更好更快的做判斷。老黃是想給醫(yī)院已經(jīng)大量部署的儀器加點(diǎn)AI的調(diào)料,為醫(yī)生的日常工作提供價(jià)值(更快更好的診斷)。

感覺(jué)這種把數(shù)據(jù)采集和數(shù)據(jù)的處理分開(kāi)的做法在商業(yè)上也可能是一個(gè)可行的模式:

  • 超聲設(shè)備的開(kāi)發(fā)硬件較多,開(kāi)發(fā)周期比較長(zhǎng)。重點(diǎn)是信噪比高,基礎(chǔ)圖像質(zhì)量好。
  • GPU 工作站和軟件發(fā)展迅速。通過(guò)把數(shù)據(jù)采集和處理分離,可以在軟件端快速迭代。
  • 可以通過(guò)多個(gè)超聲設(shè)備共享GPU 工作站降低成本。
  • 商業(yè)模式需要逐漸從硬件設(shè)備(超聲儀器),轉(zhuǎn)向軟件和服務(wù)。通過(guò)GPU上的軟件升級(jí)和功能開(kāi)發(fā)套利。
  • 如果網(wǎng)絡(luò)速度逐漸不是問(wèn)題(比如5G的大量部署),GPU工作站可以放在云端,那么對(duì)公司而言,就是從云端提供服務(wù)的商業(yè)模式,前端超聲設(shè)備可以非常便宜的推廣到醫(yī)院,甚至可以不用在超聲設(shè)備上盈利。
  • 比較適合于不是傳統(tǒng)設(shè)備商的startup, 所以你可以看到老黃這個(gè)項(xiàng)目里面有推想科技,以色列的Zebra Medical, 或者加州的Baylabs這些做醫(yī)療AI的初創(chuàng)企業(yè)/軟件公司。
11Untitled.jpg
16Untitled.jpg
10Untitled.jpg
17Untitled.jpg

TensorRT 4.0

TensorRT3.0 說(shuō)是支持 tensorflow, caffe 模型,其實(shí)仔細(xì)調(diào)研發(fā)現(xiàn)功能上還是有不少不完備的。希望TensorRT4.0能夠搞定這些問(wèn)題。目前TensorRT4.0還不能下載,介紹如下:

TensorRT 4 now provides capabilities to accelerate speech recognition, neural machine translation and recommender systems. The native ONNX parser in TensorRT 4 provides an easy path to import models from frameworks such as PyTorch, Caffe2, MxNet, CNTK and Chainer.

Highlights include:

  • 45x higher throughput vs. CPU with new layers for Multilayer Perceptrons (MLP) and Recurrent Neural Networks (RNN)
  • 50x faster inference performance on V100 vs. CPU-only for ONNX models imported with ONNX parser in TensorRT
  • Support for NVIDIA DRIVE? Xavier - AI Computer for Autonomous Vehicles
  • 3x inference speedup for FP16 custom layers with APIs for running on Volta Tensor Cores

覺(jué)得特別有用的就是對(duì)ONNX的支持。也就是你可以隨便用自己喜歡的語(yǔ)言做模型的訓(xùn)練,然后用TensorRT做模型的部署。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容