參考:
pytorch docker 官方 here
Torch-TensorRT repo 官方 here
Torch-TensorRT 文檔 here
TensorRT repo 官方 here
NVIDIA-docker2 文檔 here
報(bào)錯(cuò) [gpu]... 解決(nvidia-docker2) here
docker卸載和安裝 here
環(huán)境搭建
- docker uninstall install
First uninstall :
https://blog.csdn.net/qq_41985134/article/details/120653645
remember to set user sudo, delete "apt autoremove ... '-' "
Then directly install this :
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html
卸載 nvidia-docker:
# Vscode sudo error https://www.jb51.net/article/216148.htm:
sudo groupadd docker #添加docker用戶組
sudo gpasswd -a $USER docker #將當(dāng)前用戶添加至docker用戶組
newgrp docker #更新docker用戶組
- 第一種方法,docker里開發(fā)
裝完nvidia-docker2后,
docker run -p 7777:8888 --gpus all -it --rm -v /home/gzy:/home nvcr.io/nvidia/pytorch:22.01-py3
jupyter notebook
瀏覽器localhost:7777
或者先pull再run:
sudo docker pull nvcr.io/nvidia/pytorch:22.01-py3
docker run -p 7777:8888 --gpus all -it --rm -v /home/gzy:/home nvcr.io/nvidia/pytorch:22.01-py3
docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864
docker run -p 7777:8888 --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -it --rm -v /home/gzy:/home nvcr.io/nvidia/pytorch:22.01-py3
docker images查看本地鏡像
報(bào)錯(cuò): 可能是賓館網(wǎng)絡(luò)有墻的原因,換成手機(jī)4G熱點(diǎn)就可以了;之前在香港也能直接下載;
1. retrying in 10 seconds
2. docker read: connection reset by peer
3. snap裝的docker重啟后不好用了,snap remove 卸載后 apt install 重裝,鏡像名恢復(fù)正常(22.05,之前顯示21.12可能是殘留的信息)
- 第二種方法,ubuntu本地編譯
參考 Torch-TensorRT repo,電腦的nvidia driver、cuda、cudnn版本最好和pytorch docker里的一樣;先安裝bazel,再用bazel編譯