SKIL/開始/系統(tǒng)要求/多服務(wù)器要求

多服務(wù)器要求
SKIL可以在單節(jié)點和多節(jié)點配置中工作。在多節(jié)點設(shè)置中,你可以利用不同的機器擴展模型服務(wù)或訓練,以滿足你的業(yè)務(wù)需求。
對于所有多服務(wù)器(群集)設(shè)置,應(yīng)將以下軟件版本與SKIL一起使用:

軟件 版本
Apache Spark 1.6.x
ZooKeeper 3.4.x
SKIL訓練與推理集群
用于訓練的SKIL集群允許組織架構(gòu)中的不同分組共享計算資源進行深度學習,并提供一個一致的框架來訪問經(jīng)過訓練的應(yīng)用程序模型。
深度學習模型的訓練過程可以計算,有時內(nèi)存使用很多,因此建議使用更高性能的系統(tǒng)。這些節(jié)點通常包含大量RAM和GPU和/或高CPU核心計數(shù)。SKIL可以配置為在Hadoop集群內(nèi)工作,并利用Spark和HDFS進行培訓或進行高性能批處理推理。

64-128GB的RAM (專門用于訓練)
500GB-1TB 磁盤間 (推薦SSD)
1-8 x NVIDIA Tesla P100 或 V100 GPUs
10Gbps 以太網(wǎng)或光纖通道網(wǎng)絡(luò)連接。

SKIL 推理集群
推理集群是為使用簡單的REST API為你的模型評分而優(yōu)化的。他們還可以根據(jù)應(yīng)用程序的需要運行轉(zhuǎn)換并執(zhí)行KNN查找。你可以將SKIL配置為僅在推理模式下運行,并將其擴展以滿足性能目標。

推理集群所需的規(guī)范取決于所服務(wù)模型的復(fù)雜性。較大的模型可能需要GPU來確保模型評分有足夠的響應(yīng)時間。對于不太復(fù)雜的模型,大量只使用CPU的小型機器就足夠了。這里并沒有詳細介紹如何為集群確定正確的節(jié)點大小,但是這里有一些典型的配置:
僅CPU集群節(jié)點:

四核處理器
16-128GB 的 RAM
最小1Gbps網(wǎng)絡(luò)連接
100GB-1TB 磁盤空間
經(jīng)典的GPU集群:

四核處理器
64-128GB 的 RAM
最小1Gbps網(wǎng)絡(luò)連接
500GB-1TB磁盤空間
1-4 NVIDIA Tesla P100/V100 GPU

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容