阿里云CentOS7下安裝CUDA 9.0 + CUDNN 7.3 + Tensorflow GPU 1.11

版本

tensorflow-gpu 版本 1.11.0
CUDA 版本 9.0(注:pip安裝的tensorflow只支持9.0版本,不支持最新10.0以及9.1、9.2)
cudnn 7.3 (for CUDA 9.0)

下載鏈接

CUDA 9.2 https://developer.nvidia.com/cuda-92-download-archive?target_os=Linux
CUDA 9.0 https://developer.nvidia.com/cuda-90-download-archive?target_os=Linux
cudnn 7.3 https://developer.nvidia.com/rdp/cudnn-download (要注冊開發(fā)者帳號,啰嗦無比)

屏蔽默認(rèn)帶有的nouveau(默認(rèn) GPU 驅(qū)動)

1、打開/lib/modprobe.d/dist-blacklist.conf
2、編輯該文件,操作如下:
將nvidiafb注釋掉: #blacklist nvidiafb
然后添加以下語句:
blacklist nouveau
options nouveau modeset=0

3、重建initramfs image步驟

mv /boot/initramfs-(uname -r).img /boot/initramfs-(uname -r).img.bak
dracut /boot/initramfs-(uname -r).img(uname -r)

4、修改運行級別為文本模式
systemctl set-default multi-user.target

5、重新啟動, 使用root用戶登陸
reboot

6、查看nouveau是否已經(jīng)禁用
lsmod | grep nouveau

準(zhǔn)備工作

建議參考官方文檔 https://developer.download.nvidia.com/compute/cuda/9.2/Prod2/docs/sidebar/CUDA_Installation_Guide_Linux.pdf

安裝 dkms

yum install epel-release
yum install --enablerepo=epel dkms

安裝 kernel 的相關(guān)包

yum install kernel*

下載 CUDA 的直接可執(zhí)行包

下載 CUDA 9.0 和 CUDA 9.2 (這里不下載 rpm 包)

安裝和運行 CUDA 9.2 安裝 NVIDIA Driver 和 toolkit

sh cuda_9.2.148_396.37_linux

驗證 Nvidia 驅(qū)動

dkms status
nvidia-smi

安裝CUDA 9.0

1、卸載 CUDA 9.2 的 toolkit
/usr/local/cuda-9.2/bin/uninstall_cuda_9.2.pl

2、安裝 CUDA 9.0 但是不要安裝 NVIDIA Driver (執(zhí)行中有選項)
sh cuda_9.0.176_384.81_linux-run

驗證驅(qū)動

./usr/local/cuda-9.1/extras/demo_suite/deviceQuery

安裝 cudnn 7.3 參考官方文檔

https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html
一共4步
tar -xzvf cudnn-9.0-linux-x64-v7.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

設(shè)置路徑

添加 /usr/local/cuda-9.0/bin 到 PATH
添加 /usr/local/cuda-9.0/lib64 到 LD_LIBRARY_PATH
具體參考官方文檔里面的命名建議 https://developer.download.nvidia.com/compute/cuda/9.2/Prod2/docs/sidebar/CUDA_Installation_Guide_Linux.pdf

安裝 tensorflow

pip install tensorflow-gpu (默認(rèn)安裝1.11.0)

代碼驗證

import tensorflow as tf
sess = tf.Session()

常見問題

1、執(zhí)行 nvidia-smi,一直報 “NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver ...... ”

NVIDIA 驅(qū)動安裝不正確,需要重裝,先執(zhí)行 nvidia-uninstall 卸載,再重裝驅(qū)動

2、libcublas.so.9.0: cannot open shared object file: No such file or directory

LD_LIBRARY_PATH 未正確設(shè)置,或者安裝了9.2的CUDA(因此沒找到9.0的 so 文件)

其他

yum list <package_name> --showduplicates
yum install <pacakge_name>-<version>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容