Transformer Network

coursera deeplearning
一、組成


image.png

二、self-attention
self-attention 是 Transformer Network 中比較核心的部分,目的是使文本中某個(gè)單詞與其他單詞產(chǎn)生聯(lián)系,產(chǎn)生聯(lián)系后的單詞為 z

1、在 self-attention 當(dāng)中輸入單詞數(shù)和輸出單詞數(shù)一致


v2-ace271b3d7094074aabfc743afd2e841_r.jpg

2、計(jì)算過(guò)程

a single attention function:
image.png
image.png

Q : 向量
K : 向量
V : 向量
dk : 向量維度
認(rèn)為兩個(gè)向量越相近,相乘值越高

三、Multi-head attention
多頭注意力機(jī)制就是將多個(gè) single attention function 的結(jié)果進(jìn)行 concat 拼接,拼接后再與一個(gè)矩陣相乘,認(rèn)為不同的輸入 z 關(guān)注不同距離的注意力 attention

對(duì)第 i one head:
image.png

Mutil-Head :


image.png
image.png

四、Position Encoding
為了體現(xiàn)單詞之間的相對(duì)關(guān)系,使用 Position Encoding , 在 Input Embedding 之后與 Position Encoding 相加

五、encoder & decoder
encoder : 生成 K V 矩陣
decoder : 生成 Q 矩陣
交互如下:


image.png
image.png
image.png

六、其他
Norm : 使用了歸一化但和 BN 不同
Feed Forward : 全連接
N× : 有 N 個(gè) encoder 和 N 個(gè) decoder

參考
https://zhuanlan.zhihu.com/p/46990010
https://www.bilibili.com/video/BV1Di4y1c7Zm?p=7
https://www.bilibili.com/video/BV1L54y1a7Y3

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容