GTC 2018 沒(méi)有新的消費(fèi)級(jí)顯卡發(fā)布,這個(gè)是一個(gè)令人失望的地方。對(duì)于有錢(qián)人來(lái)說(shuō),到不是問(wèn)題。在硬件方面,Nvidia 基于V100的架構(gòu)上,發(fā)布了內(nèi)存加倍的Quadro GV100顯卡,新的Telsa V100. DGX-2 世界上計(jì)算能力最強(qiáng)的顯卡(2P flops, 512 GB HDM2, 399K$).


其他可圈可點(diǎn)的主要在軟件上。
在醫(yī)療方面 Clara - Medical Imaging Supercomputer.
琢磨來(lái)琢磨去覺(jué)得是Nvidia 在DGX workstation 上的software stack, 為了給傳統(tǒng)的醫(yī)療影像行業(yè)注入新的生命力。老黃用了一個(gè)超聲設(shè)備為例子:
- 傳統(tǒng)的超聲設(shè)備。也就是已經(jīng)在醫(yī)院里面部署的舊的設(shè)備。
- 數(shù)據(jù)傳輸?shù)絅vidia Clara醫(yī)學(xué)影像工作站
- 自動(dòng)心內(nèi)膜分割 (deep learning, semantic segmentation)
- 射血分?jǐn)?shù)計(jì)算(AutoEF)
- 3D 心臟建模和3D繪制 (這個(gè)是如何搞得?2D 超聲掃描到3D? 還是至少有雙平面探頭?老黃大概也不懂超聲,沒(méi)有講明白。)
如果從software stack 來(lái)看的話,GPU server 提供硬件計(jì)算能力,GPU containers/VGPU 可以讓GPU server 在云端scale up, 如果數(shù)據(jù)的傳輸不再是瓶頸的話。Cuda 提供通用的高性能計(jì)算能力,可以用于傳統(tǒng)的醫(yī)學(xué)影像算法。cudnn和tensorrt一起提供AI的推理能力(比如用于semantic segmentation 和建模)。 OpenGL 和RTX 用于3D rendering。 讓超聲這個(gè)傳統(tǒng)的成像模式老樹(shù)發(fā)新芽。最后這些能力體現(xiàn)在AutoEF 等等自動(dòng)測(cè)量,和通過(guò)3D 幫助醫(yī)生更好更快的做判斷。老黃是想給醫(yī)院已經(jīng)大量部署的儀器加點(diǎn)AI的調(diào)料,為醫(yī)生的日常工作提供價(jià)值(更快更好的診斷)。
感覺(jué)這種把數(shù)據(jù)采集和數(shù)據(jù)的處理分開(kāi)的做法在商業(yè)上也可能是一個(gè)可行的模式:
- 超聲設(shè)備的開(kāi)發(fā)硬件較多,開(kāi)發(fā)周期比較長(zhǎng)。重點(diǎn)是信噪比高,基礎(chǔ)圖像質(zhì)量好。
- GPU 工作站和軟件發(fā)展迅速。通過(guò)把數(shù)據(jù)采集和處理分離,可以在軟件端快速迭代。
- 可以通過(guò)多個(gè)超聲設(shè)備共享GPU 工作站降低成本。
- 商業(yè)模式需要逐漸從硬件設(shè)備(超聲儀器),轉(zhuǎn)向軟件和服務(wù)。通過(guò)GPU上的軟件升級(jí)和功能開(kāi)發(fā)套利。
- 如果網(wǎng)絡(luò)速度逐漸不是問(wèn)題(比如5G的大量部署),GPU工作站可以放在云端,那么對(duì)公司而言,就是從云端提供服務(wù)的商業(yè)模式,前端超聲設(shè)備可以非常便宜的推廣到醫(yī)院,甚至可以不用在超聲設(shè)備上盈利。
- 比較適合于不是傳統(tǒng)設(shè)備商的startup, 所以你可以看到老黃這個(gè)項(xiàng)目里面有推想科技,以色列的Zebra Medical, 或者加州的Baylabs這些做醫(yī)療AI的初創(chuàng)企業(yè)/軟件公司。




TensorRT 4.0
TensorRT3.0 說(shuō)是支持 tensorflow, caffe 模型,其實(shí)仔細(xì)調(diào)研發(fā)現(xiàn)功能上還是有不少不完備的。希望TensorRT4.0能夠搞定這些問(wèn)題。目前TensorRT4.0還不能下載,介紹如下:
TensorRT 4 now provides capabilities to accelerate speech recognition, neural machine translation and recommender systems. The native ONNX parser in TensorRT 4 provides an easy path to import models from frameworks such as PyTorch, Caffe2, MxNet, CNTK and Chainer.
Highlights include:
- 45x higher throughput vs. CPU with new layers for Multilayer Perceptrons (MLP) and Recurrent Neural Networks (RNN)
- 50x faster inference performance on V100 vs. CPU-only for ONNX models imported with ONNX parser in TensorRT
- Support for NVIDIA DRIVE? Xavier - AI Computer for Autonomous Vehicles
- 3x inference speedup for FP16 custom layers with APIs for running on Volta Tensor Cores
覺(jué)得特別有用的就是對(duì)ONNX的支持。也就是你可以隨便用自己喜歡的語(yǔ)言做模型的訓(xùn)練,然后用TensorRT做模型的部署。