版本
tensorflow-gpu 版本 1.11.0
CUDA 版本 9.0(注:pip安裝的tensorflow只支持9.0版本,不支持最新10.0以及9.1、9.2)
cudnn 7.3 (for CUDA 9.0)
下載鏈接
CUDA 9.2 https://developer.nvidia.com/cuda-92-download-archive?target_os=Linux
CUDA 9.0 https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux
cudnn 7.3 https://developer.nvidia.com/rdp/cudnn-download (要注冊開發(fā)者帳號,啰嗦無比)
屏蔽默認(rèn)帶有的nouveau(默認(rèn) GPU 驅(qū)動)
1、打開/lib/modprobe.d/dist-blacklist.conf
2、編輯該文件,操作如下:
將nvidiafb注釋掉: #blacklist nvidiafb
然后添加以下語句:
blacklist nouveau
options nouveau modeset=0
3、重建initramfs image步驟
mv /boot/initramfs-(uname -r).img.bak
dracut /boot/initramfs-(uname -r)
4、修改運行級別為文本模式
systemctl set-default multi-user.target
5、重新啟動, 使用root用戶登陸
reboot
6、查看nouveau是否已經(jīng)禁用
lsmod | grep nouveau
準(zhǔn)備工作
安裝 dkms
yum install epel-release
yum install --enablerepo=epel dkms
安裝 kernel 的相關(guān)包
yum install kernel*
下載 CUDA 的直接可執(zhí)行包
下載 CUDA 9.0 和 CUDA 9.2 (這里不下載 rpm 包)
安裝和運行 CUDA 9.2 安裝 NVIDIA Driver 和 toolkit
sh cuda_9.2.148_396.37_linux
驗證 Nvidia 驅(qū)動
dkms status
nvidia-smi
安裝CUDA 9.0
1、卸載 CUDA 9.2 的 toolkit
/usr/local/cuda-9.2/bin/uninstall_cuda_9.2.pl
2、安裝 CUDA 9.0 但是不要安裝 NVIDIA Driver (執(zhí)行中有選項)
sh cuda_9.0.176_384.81_linux-run
驗證驅(qū)動
./usr/local/cuda-9.1/extras/demo_suite/deviceQuery
安裝 cudnn 7.3 參考官方文檔
https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html
一共4步
tar -xzvf cudnn-9.0-linux-x64-v7.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
設(shè)置路徑
添加 /usr/local/cuda-9.0/bin 到 PATH
添加 /usr/local/cuda-9.0/lib64 到 LD_LIBRARY_PATH
具體參考官方文檔里面的命名建議 https://developer.download.nvidia.com/compute/cuda/9.2/Prod2/docs/sidebar/CUDA_Installation_Guide_Linux.pdf
安裝 tensorflow
pip install tensorflow-gpu (默認(rèn)安裝1.11.0)
代碼驗證
import tensorflow as tf
sess = tf.Session()
常見問題
1、執(zhí)行 nvidia-smi,一直報 “NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver ...... ”
NVIDIA 驅(qū)動安裝不正確,需要重裝,先執(zhí)行 nvidia-uninstall 卸載,再重裝驅(qū)動
2、libcublas.so.9.0: cannot open shared object file: No such file or directory
LD_LIBRARY_PATH 未正確設(shè)置,或者安裝了9.2的CUDA(因此沒找到9.0的 so 文件)
其他
yum list <package_name> --showduplicates
yum install <pacakge_name>-<version>