ubuntu18.04+Pytorch+cuda10.1+cuDNN配置踩坑記

當(dāng)前的主流深度學(xué)習(xí)環(huán)境配置應(yīng)該都是ubuntu16.04+cuda8.0(或9.0),首次配置ubuntu18.04+Pytorch1.0.1+cuda10.1+cuDNN,踩了不少坑,配置快兩天了,心態(tài)略崩,記錄下來緩和一下此時的心情!


參考資料:
1. Ubuntu 16.04 上安裝 CUDA 9.0 詳細(xì)教程(強(qiáng)烈推薦閱讀,18.04安裝類似)
2. 解決Ubuntu18.04安裝Nvidia驅(qū)動開機(jī)卡死


先總結(jié)一下問題:
ubuntu18.04安裝軟件與更新->附加驅(qū)動中的GTX1080驅(qū)動本身沒有問題,但是安裝了CUDA之后重啟就會出現(xiàn)輸完密碼司機(jī)的情況,這也是本文主要說明的問題。

再說一下結(jié)果:
使用cuda10.1自帶的n卡驅(qū)動安裝的,還是會出現(xiàn)直接輸入密碼死機(jī)的情況,但是找到了解決辦法(并不好用,但是沒有辦法)。


  1. 首先按照win10下安裝類似在anaconda目錄建了一個虛擬環(huán)境,打算在虛擬環(huán)境下安裝pytorch+cuda+cudnn,但是裝完發(fā)現(xiàn)都在base環(huán)境下,不知道怎么回事,求解答。。安裝Pytorch,安裝之前切記提前看好Pytorch gpu版支持的cuda版本,一定要與下載的cuda相同(我這里Pytorch支持的是cuda10.0,下載安裝的cuda是10.1版本,親測可行)
  2. 安裝CUDA10.1,這里也是上面問題出現(xiàn)的主要步驟。一般選擇下載就是runfile和deb兩個類型。在選擇下載之前,先看一下我踩的坑。第一次下了deb版本,直接在圖形界面終端用sudo dpkg -i <文件名>安裝的,安裝重啟后就出現(xiàn)輸入登錄密碼后黑屏死機(jī)的情況。先說明一下,這里是n卡驅(qū)動的問題,如果遇到這種情況,這里給出了解決方案:
  1. 重啟電腦,在logo出現(xiàn)時一直按shift進(jìn)去grub啟動界面
  2. 選擇“ubuntu高級設(shè)置”,回車,可以看到第二項"recovery mode",光標(biāo)移到該選項,按下字母“e”,進(jìn)行編輯。
  3. 光標(biāo)移動到以字符"linux"開頭的那一行,將它的"ro recovery nomodestset",修改為"rw single init=/bin/bash",這一行后面如果還有內(nèi)容全部刪除(只是刪除本行后面的內(nèi)容,不要刪除下一行的內(nèi)容),然后按"ctrl+x"或"F10"重新載入,進(jìn)入單用戶模式。
  4. 接下來會進(jìn)入單用戶root模式,我們可以輸入下面命令卸載Nvidia驅(qū)動:
    apt remove nvidia* --purge
    卸載過程中選擇“Y”即可全部刪除,刪除完成后重啟輸入密碼就能進(jìn)去圖形界面啦!

既然N卡驅(qū)動和ubuntu系統(tǒng)這么不對付,我們是不是就不能用N卡了呢?不是這樣的。機(jī)(ku)靈(bi)的我又查閱了很多資料,終于意外的發(fā)現(xiàn)了這篇圣經(jīng),他解決的是16.04上安裝N卡驅(qū)動后重啟在登錄界面無限循環(huán)的問題,但是卻給了我一個思路去解決輸入密碼后死機(jī)的問題。

大家可以直接按照原作者的步驟來做,因為ubuntu版本更新的原因,有少量步驟結(jié)果略有不同,但是大體上還是一樣的,即選擇runfile文件下載,在TUI(即文本命令行界面,ubuntu18.04進(jìn)入很迷,一般是在重啟后ubuntu的logo出現(xiàn)時按ctrl+alt+F2~F6都行,然后ctrl+alt+F1回到圖形界面,如果時機(jī)掌握的不好就重啟再試一次吧哈哈)界面登錄,并安裝.run文件,這里建議將.run文件名更改為類似cuda10.1.run,并將文件放在 /home/<用戶名> 目錄下,方便安裝。

這里注意,cuda10.1安裝提示可能與原博文中有出入,先輸入accept,然后選擇install安裝即可。安裝完成后按照文章中步驟測試。再次重啟后,會發(fā)現(xiàn)直接進(jìn)去還是會死機(jī)(心如死灰。。)。怎么辦呢?

重點來了?。。?/strong>

再次重啟,出現(xiàn)ubuntu logo時,按下ctrl+alt+F2~F6都行(我這里是這樣),然后ctrl+alt+F1回到圖形界面,輸入密碼,發(fā)現(xiàn)可以進(jìn)去了,哈哈?。?/strong>
親測成功兩次!目前打算非必要情況不關(guān)機(jī)或是重啟了,太麻煩了。。

  1. cuDNN的安裝
    這個就直接安裝就行吧,選對版本,執(zhí)行安裝deb命令就行我記得是
sudo dpkg -i <deb文件路徑和文件名>
sudo apt install libcudnn7(寫這篇文章時是cudnn7版本)
  1. 測試是否成功
    終端進(jìn)入anaconda下的Python,在這之前先看看是否配置過anaconda的python為終端默認(rèn)python
sudo gedit ~/.bashrc
export PATH="/home/xupp/anaconda3/bin:$PATH"
#測試Pytorch是否下載成功
import torch
#測試cuda能否使用,能使用則返回True
print(torch.cuda.is_available())

True
#測試cuDNN是否正常,正常返回True
from torch.backends import cudnn
a = torch.tensor(1.)
cudnn.is_acceptable(a.cuda())

True

2019.4.19更新...

感謝@Johnson_Yep同學(xué)的留言,這里解決了兩個問題:

  1. TUI界面下,Ctrl+Alt+F1+F2一起按一定能進(jìn)入圖形界面(講真,這是我第一次同時按4個鍵,哈哈..)
  2. 與NVIDIA驅(qū)動沖突的是gdm3顯示管理,可以換成lightdm試試
    sudo apt install lightdm
    切換方式可以自行上網(wǎng)搜索

這里留下的幾個問題是:

  1. 為什么在anaconda目錄下創(chuàng)建的虛擬環(huán)境中操作,最后東西都安裝到base中了?
    實測anaconda下利用conda創(chuàng)建虛擬環(huán)境可以使用,但是利用其他方法創(chuàng)建不可以。

  2. ubuntu18.04進(jìn)入TUI(命令行模式)的快捷鍵到底是啥?(有時候按ctrl+alt+F1就鎖屏死機(jī)了。。。但是有時候就可以回到圖形界面,迷得一批。。)
    TUI界面下,Ctrl+Alt+F1+F2一起按一定能進(jìn)入圖形界面

  3. ubuntu18.04中查看cudnn版本的方法是什么?百度到的那行命令
    cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
    不管用,沒有這個cudnn.h文件
    個人感覺是安裝方式不同,我是直接用deb安裝的,用壓縮包安裝應(yīng)該是有.h文件的。

  4. 大家要是有什么好的解決辦法請一定給我留言,歡迎討論!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容