李宏毅機(jī)器學(xué)習(xí):Transformer

Transformer: Sequence-to-sequence(Seq2sq)

input a sequence, output a sequence




Seq2seq for Syntactic Parsing (文法分析)


Grammar as a Foreign Language

Seq2seq for Multi-laber Classification

Multi-class : 從多個(gè)class中選擇一個(gè)
Multi-laber:一個(gè)object可以屬于多個(gè)class


Seq2seq for Object Detection


Seq2Seq

最早的Seq2Seq


現(xiàn)在的Seq2Seq


Encoder

Transformer 總體來(lái)說(shuō)是用到了Self-attention:


實(shí)際上的過(guò)程會(huì)復(fù)雜一些:


實(shí)際上這個(gè)Encoder的設(shè)計(jì)也不是最好的:

Decoder


其實(shí)Decoder并沒(méi)有特別大的差別(如果不看中間灰色部分的話)


Masked Self-attention?

Why masked?

在Decoder運(yùn)作的時(shí)候,輸出是一個(gè)一個(gè)產(chǎn)生的,所以沒(méi)有辦法考慮后續(xù)的信息。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容