Tensorflow不能使用GPU

跑tensorflow代碼訓(xùn)練模型的時候發(fā)現(xiàn)tensorflow把參數(shù)copy進了GPU卻仍然在CPU上訓(xùn)練,現(xiàn)象就是用nvidia-smi查出的GPU使用情況中 Memory-Usage不為0,而Volatile GPU-Util 為0。正常情況下應(yīng)該兩個都不為0,下圖是正常情況:

image.png

查看輸出log發(fā)現(xiàn)是tensorflow加載一些CUDA10.0的庫失敗了,安裝的CUDA并不是10.0,說明tensorflow和CUDA版本不兼容。更換tensorflow版本或者CUDA版本即可。
奇怪的現(xiàn)象是,更換完之后再跑模型仍然是不能使用GPU。
偶然發(fā)現(xiàn),如果在xshell中登錄ssh運行代碼就會在GPU上訓(xùn)練,執(zhí)行

import tensorflow as tf
tf.test_is_gpu_available()

返回True;
如果在vscode-remote中打開終端運行代碼就不會在GPU上訓(xùn)練,會報錯加載CUDA的一些庫失敗。執(zhí)行tf.test_is_gpu_available()返回False。
分別在xshell下和vscode-remote Terminal中查看 LD_LIBRARY_PATH環(huán)境變量,發(fā)現(xiàn)二者不一致。vscode-remote中的環(huán)境變量少了CUDA庫的路徑。
網(wǎng)上查閱到這篇博客ssh連接遠程主機執(zhí)行腳本的環(huán)境變量問題
從中了解到vscode-remote 中的Terminal 屬于 non login 模式。但通過實驗可以發(fā)現(xiàn),vscode-remote Terminal是會加載 ~/.bashrc中的環(huán)境變量的,似乎是vscode做了額外的操作或者是bash版本的緣故。
總之,如果在vscode-remote Terminal運行代碼,要注意環(huán)境變量是否和xshell ssh Terminal下的一致。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容