Transformer: Sequence-to-sequence(Seq2sq)
input a sequence, output a sequence





Seq2seq for Syntactic Parsing (文法分析)

Grammar as a Foreign Language
Seq2seq for Multi-laber Classification
Multi-class : 從多個(gè)class中選擇一個(gè)
Multi-laber:一個(gè)object可以屬于多個(gè)class

Seq2seq for Object Detection

Seq2Seq
最早的Seq2Seq

現(xiàn)在的Seq2Seq

Encoder

Transformer 總體來(lái)說(shuō)是用到了Self-attention:

實(shí)際上的過(guò)程會(huì)復(fù)雜一些:


實(shí)際上這個(gè)Encoder的設(shè)計(jì)也不是最好的:

Decoder

其實(shí)Decoder并沒(méi)有特別大的差別(如果不看中間灰色部分的話)

Masked Self-attention?


Why masked?
在Decoder運(yùn)作的時(shí)候,輸出是一個(gè)一個(gè)產(chǎn)生的,所以沒(méi)有辦法考慮后續(xù)的信息。