coursera deeplearning
一、組成

二、self-attention
self-attention 是 Transformer Network 中比較核心的部分,目的是使文本中某個(gè)單詞與其他單詞產(chǎn)生聯(lián)系,產(chǎn)生聯(lián)系后的單詞為 z
1、在 self-attention 當(dāng)中輸入單詞數(shù)和輸出單詞數(shù)一致

2、計(jì)算過(guò)程


Q : 向量
K : 向量
V : 向量
dk : 向量維度
認(rèn)為兩個(gè)向量越相近,相乘值越高
三、Multi-head attention
多頭注意力機(jī)制就是將多個(gè) single attention function 的結(jié)果進(jìn)行 concat 拼接,拼接后再與一個(gè)矩陣相乘,認(rèn)為不同的輸入 z 關(guān)注不同距離的注意力 attention

Mutil-Head :


四、Position Encoding
為了體現(xiàn)單詞之間的相對(duì)關(guān)系,使用 Position Encoding , 在 Input Embedding 之后與 Position Encoding 相加
五、encoder & decoder
encoder : 生成 K V 矩陣
decoder : 生成 Q 矩陣
交互如下:



六、其他
Norm : 使用了歸一化但和 BN 不同
Feed Forward : 全連接
N× : 有 N 個(gè) encoder 和 N 個(gè) decoder
參考
https://zhuanlan.zhihu.com/p/46990010
https://www.bilibili.com/video/BV1Di4y1c7Zm?p=7
https://www.bilibili.com/video/BV1L54y1a7Y3