用fp16訓(xùn)練的時(shí)候,得單獨(dú)把transformer layer改成fp32,不然可能loss不降 checkpoint+ddp的時(shí)候,可能會(huì)報(bào)...
1. 通過(guò)下標(biāo)取數(shù)據(jù):index_select torch.index_select(input, dim, index)input: 待ind...
今天讀了一篇比較古老的文章,是曠視發(fā)表在ECCV18的一篇目標(biāo)檢測(cè)文章,DetNet。這篇文章應(yīng)該緊跟著FPN發(fā)表的,主要針對(duì)目標(biāo)檢測(cè)通用bac...
這篇文章是從改進(jìn)ViT輸入的角度來(lái)做的,在最初版本的ViT中,是將圖像分成16*16個(gè)patch,每個(gè)patch展開(kāi)為一個(gè)向量,作為ViT的序列...
字節(jié)跳動(dòng)AI Lab最新的工作,研究了如何把ViT做的更深的問(wèn)題。之前的ViT采用的都是固定的12層,所不同的是head的數(shù)目和embeddin...
這篇文章最大的貢獻(xiàn)就是有效降低了vision transformer的訓(xùn)練成本(時(shí)間以及數(shù)據(jù)),提高了ViT實(shí)驗(yàn)的可復(fù)現(xiàn)性,本文所提出的DeiT...
谷歌和伯克利一起提出的Bottleneck Transformer(BoT)屬于一種hybrid network,將cnn和transforme...
(可能)是第一次大規(guī)模的采用純transformer做cv任務(wù)的文章,驗(yàn)證了transformer在cv領(lǐng)域的有效性,大大的挖坑之作。 ViT的...
今天寫(xiě)代碼的時(shí)候遇到一個(gè)問(wèn)題,網(wǎng)絡(luò)前向過(guò)程中有一個(gè)張量A,我想把張量A中的大于0的值變成張量B中對(duì)應(yīng)的值,最初的實(shí)現(xiàn)是: 然后運(yùn)行起來(lái)就報(bào)錯(cuò)了,...