IP屬地:湖北
Encoder和Decoder中的計算核心就是Self-Attention,只是Decoder中多了一個Encoder-Decoder Atte...
輸出的是dec_output 和attn_weight 1.計算attention 2.計算出來的結(jié)果加上原來的X 3.之后進(jìn)行層歸一化 和之前...
1.這里輸入的targets 添加一個模型的維度 變化之后每一列的數(shù)值是一樣的 最后一個維度256為詞嵌入的維度 加入位置參數(shù)
上一層得到一個層歸一化之后的矩陣【5,129,256】,層歸一化之后的矩陣做一個全連接 激活函數(shù)為glu 因?yàn)樵谶@中間包含了Relu激活函數(shù),而...
上一層輸出了一個context=【5,129,256】和原來的矩陣(輸入之前的矩陣【5,129,256】)相加,相加之后的結(jié)果做一個層歸一化 h...
得到了QKV三個矩陣 【5,4,129,64】做矩陣乘法算得分——— 得分矩陣為【5,4,129,129】(用Q和K相乘)—— 經(jīng)過一個soft...
加入位置信息之后的矩陣【5,129,256】——經(jīng)過一個全連接層 【5,129,768(256*3)】——切成QKV三個矩陣【5,129,256...
【5,129,256】———維度不發(fā)生變化數(shù)值發(fā)生變化 位置矩陣不存在模型的維度變化 輸入的矩陣*16+一個維度相同的位置矩陣