集群中有四臺主機,master(無GPU),node01,node02,node03(GPU主機),直接運行python main.py程序將在CPU中運行。
如下步驟可以運行你的程序:
在你的文件目錄下新建一個 lsf.sh 文件,正文寫入:
#!/bin/sh
#BSUB -q normal
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -n 1
#BSUB -J JOBNAME
#BSUB -R span[ptile=1]
#BSUB -m "node03"
#BSUB -gpu num=1
python main.py
其中 python main.py 是你運行程序的命令,然后:
source activate 你的conda環(huán)境
開啟環(huán)境,用
bsub <lsf.sh向集群提交運算任務。
即可運行程序,終端會給你一個任務序號,輸出文件就是序號.out和序號.err。
** 其他命令:**
bjobs -W查看你的任務運行狀況
bhosts -gpu查看集群GPU使用情況。