跑tensorflow代碼訓(xùn)練模型的時候發(fā)現(xiàn)tensorflow把參數(shù)copy進了GPU卻仍然在CPU上訓(xùn)練,現(xiàn)象就是用nvidia-smi查出的GPU使用情況中 Memory-Usage不為0,而Volatile GPU-Util 為0。正常情況下應(yīng)該兩個都不為0,下圖是正常情況:

查看輸出log發(fā)現(xiàn)是tensorflow加載一些CUDA10.0的庫失敗了,安裝的CUDA并不是10.0,說明tensorflow和CUDA版本不兼容。更換tensorflow版本或者CUDA版本即可。
奇怪的現(xiàn)象是,更換完之后再跑模型仍然是不能使用GPU。
偶然發(fā)現(xiàn),如果在xshell中登錄ssh運行代碼就會在GPU上訓(xùn)練,執(zhí)行
import tensorflow as tf
tf.test_is_gpu_available()
返回True;
如果在vscode-remote中打開終端運行代碼就不會在GPU上訓(xùn)練,會報錯加載CUDA的一些庫失敗。執(zhí)行tf.test_is_gpu_available()返回False。
分別在xshell下和vscode-remote Terminal中查看 LD_LIBRARY_PATH環(huán)境變量,發(fā)現(xiàn)二者不一致。vscode-remote中的環(huán)境變量少了CUDA庫的路徑。
網(wǎng)上查閱到這篇博客ssh連接遠程主機執(zhí)行腳本的環(huán)境變量問題
從中了解到vscode-remote 中的Terminal 屬于 non login 模式。但通過實驗可以發(fā)現(xiàn),vscode-remote Terminal是會加載 ~/.bashrc中的環(huán)境變量的,似乎是vscode做了額外的操作或者是bash版本的緣故。
總之,如果在vscode-remote Terminal運行代碼,要注意環(huán)境變量是否和xshell ssh Terminal下的一致。