
每一層的輸出
輸出的是dec_output
和attn_weight
1.計(jì)算attention

和之前的計(jì)算方法應(yīng)該是一樣的

x
2.計(jì)算出來(lái)的結(jié)果加上原來(lái)的X

標(biāo)準(zhǔn)化
3.之后進(jìn)行層歸一化
和之前進(jìn)行的計(jì)算attention的步驟是一樣的
輸出的是dec_output
和attn_weight
1.計(jì)算attention
2.計(jì)算出來(lái)的結(jié)果加上原來(lái)的X
3.之后進(jìn)行層歸一化
和之前進(jìn)行的計(jì)算attention的步驟是一樣的