最近在使用pytorch編寫transformer模型時(shí)遇到一個(gè)奇怪的報(bào)錯(cuò),使用CPU訓(xùn)練模型時(shí)沒有問題,但是一切換到GPU訓(xùn)練時(shí)就出問題,會報(bào)
RuntimeError: CUDA error: an illegal memory access was encountered
- 首先在文件頭插入以下代碼,可以讓報(bào)錯(cuò)信息更準(zhǔn)確
os.environ['CUDA_LAUNCH_BLOCKING'] = '1'
- 之后再運(yùn)行模型,發(fā)現(xiàn)報(bào)錯(cuò)在forward函數(shù)的最后一行上
return nn.LayerNorm(d_model)(output + residual)
這行代碼上,經(jīng)過查詢資料得知,這是因?yàn)閚n.LayerNorm這個(gè)layer還儲存在cpu上,要計(jì)算cuda上保存的變量時(shí)就會報(bào)錯(cuò)。所以正確的解決方法就是在構(gòu)造模型時(shí)就聲明nn.LayerNorm,不要在forward中聲明nn.layerNorm
class transformer(nn.Module):
def __init__(self):
###代碼###
xxxxx
##########
self.layerNorm = nn.LayerNorm(d_model)
def forward(self):
###代碼###
xxxxx
##########
return self.layerNorm(output + residual)
希望我的經(jīng)驗(yàn)?zāi)軒椭侥?=w=