精品无吗四区五区,小鸡鸡插入蜜桃,男女激情视频网址

image

現(xiàn)在結(jié)合這張圖大家可以回顧一下之前我們介紹如何通過線性變換來實(shí)現(xiàn)序列中各個(gè)時(shí)刻的注意力的分配。

多頭自注意力機(jī)制(Multi-head Self-attention)

接下來我們和之前一樣來做 self-attention，不同的地方是這一次只是對應(yīng)位置上來 self-attention。也就是只和做匹配，而不會(huì)和做匹配圖中已經(jīng)很清楚看出他們是如何做匹配。然后通過同樣的流程計(jì)算中出

然后

做到多頭自注意力機(jī)制好處就是我們不同的頭(head)可以做不同事，有的頭會(huì)更多關(guān)注與其相鄰的輸入，有的頭可能會(huì)更多關(guān)注時(shí)間距離其較遠(yuǎn)的輸入。也就是更加靈活了。當(dāng)然這里只是給出了 2 頭的自注意力，你可以做的更多。

解決 self-attention 中丟失的位置信息

現(xiàn)在我們可能已經(jīng)大概了解自注意力是如何實(shí)現(xiàn)的，但是問題是現(xiàn)在我們每一個(gè)輸入間關(guān)注度是均等，這里可能丟失每一時(shí)刻的輸入的位置編碼信息，既然是序列我們就需要知道每一個(gè)輸入無論是在空間上還是時(shí)間上的位置編碼信息。

由于 transformer 模型中,沒有循環(huán)神經(jīng)網(wǎng)絡(luò)的迭代操作, 所以必須提供每個(gè)字的位置信息給 transformer, 才能識(shí)別出序列中的順序關(guān)系.
現(xiàn)在定義一個(gè)位置嵌入的概念, 也就是