GPU模式
默認(rèn)情況下,SKIL未配置為使用本地可用的GPU資源。此外,你還需要確保SKIL在本地安裝了CUDA,以確保驅(qū)動(dòng)程序?qū)δ愕陌惭b有用。
從SKIL v1.1.0開始,啟用SKIL的gpu模式將啟用“tensorflow-gpu”。
警告
啟用GPU模式后,TensorFlow在執(zhí)行時(shí)占用所有GPU內(nèi)存,在重新啟動(dòng)Zeppelin解釋器之前,你將無(wú)法啟動(dòng)任何模型服務(wù)器。
避免這個(gè)問題的一種方法是在將TensorFlow與GPU一起使用時(shí)“allow growth”。你可以按照TensorFlow中的指南以這種方式設(shè)置TensorFlow。
請(qǐng)看這頁(yè),來(lái)刷新你的Zeppelin解釋器。
安裝CUDA
SKIL版本1.0.x需要在服務(wù)器上安裝CUDA 9.0工具包才能正常工作。如果你使用的是比SKIL 1.1.x更高的beta或版本,則需要CUDA 9.1。
如果你想安裝最新的CUDA二進(jìn)制文件和安裝程序,可以從NVIDIA網(wǎng)站:https://developer.nvidia.com/cuda-downloads獲得。
SKIL配置
如果正在運(yùn)行,請(qǐng)停止SKIL,并在/etc/skil/skil-env.sh中添加或替換以下行:
SKIL_CLASS_PATH=/opt/skil/cuda/*:/opt/skil/lib/*:/opt/skil/native/*:/etc/skil/*
SKIL_BACKEND=gpu
FORCE_UPDATE_TO_DB=true
DEFAULT_ZEPPELIN_JVM_ARGS="-Xmx12g -Dorg.bytedeco.javacpp.maxbytes=12G -Dorg.bytedeco.javacpp.maxphysicalbytes=12G -Dorg.nd4j.versioncheck=false -Dorg.deeplearning4j.config.custom.enabled=false"

注意
設(shè)置-Xmx和-Dorg.bytedeco.javacpp.*內(nèi)存以匹配GPU或所有GPU中可用的總內(nèi)存。
如果你在之前已經(jīng)啟動(dòng)過SKIL,則需要FORCE_UPDATE_TO_DB。啟動(dòng)SKIL之后,可以(也應(yīng)該刪除)。從UI中設(shè)置所有其他配置。
啟動(dòng)SKIL。你應(yīng)該在“代理”選項(xiàng)卡中看到以下內(nèi)容:注意GPU#:>0。

注意
tensorflow_gpu 默認(rèn)是沒有安裝的,它可以通過如下
%sh
/opt/skil/miniconda/bin/conda install tensorflow_gpu

筆記本的段落進(jìn)行安裝。
這也是tensorflow-gpu作為Keras后端所必需的。
