Encoder和Decoder中的計(jì)算核心就是Self-Attention,只是Decoder中多了一個(gè)Encoder-Decoder Attention。其實(shí)計(jì)算原理和Se...
Encoder和Decoder中的計(jì)算核心就是Self-Attention,只是Decoder中多了一個(gè)Encoder-Decoder Attention。其實(shí)計(jì)算原理和Se...
輸出的是dec_output 和attn_weight 1.計(jì)算attention 2.計(jì)算出來的結(jié)果加上原來的X 3.之后進(jìn)行層歸一化 和之前進(jìn)行的計(jì)算attention的...
1.這里輸入的targets 添加一個(gè)模型的維度 變化之后每一列的數(shù)值是一樣的 最后一個(gè)維度256為詞嵌入的維度 加入位置參數(shù)
上一層得到一個(gè)層歸一化之后的矩陣【5,129,256】,層歸一化之后的矩陣做一個(gè)全連接 激活函數(shù)為glu 因?yàn)樵谶@中間包含了Relu激活函數(shù),而均值為零的數(shù)據(jù),有一半的數(shù)據(jù)為...
上一層輸出了一個(gè)context=【5,129,256】和原來的矩陣(輸入之前的矩陣【5,129,256】)相加,相加之后的結(jié)果做一個(gè)層歸一化 http://blog.scie...
得到了QKV三個(gè)矩陣 【5,4,129,64】做矩陣乘法算得分——— 得分矩陣為【5,4,129,129】(用Q和K相乘)—— 經(jīng)過一個(gè)softmax層,只改變大小,不改變矩...
加入位置信息之后的矩陣【5,129,256】——經(jīng)過一個(gè)全連接層 【5,129,768(256*3)】——切成QKV三個(gè)矩陣【5,129,256】 ——將129*256的矩陣...
【5,129,256】———維度不發(fā)生變化數(shù)值發(fā)生變化 位置矩陣不存在模型的維度變化 輸入的矩陣*16+一個(gè)維度相同的位置矩陣
輸入維度【5,522,40】——添加維度【5,1,522,40】—— 第一次卷積【5,64,260,20】——第二次卷積【5,128,129,10】——維度交換128和129...
加入位置矩陣后的變化(不改變維度) 【5,129,256】 256*256*3 第三維度上切片,橫著截?cái)?將129*256的矩陣拆開, 拆成4個(gè)129*64的矩陣 原來每一行...
總結(jié): 維度不發(fā)生變化 具體的數(shù)值發(fā)生變化 輸入的矩陣*16(256的根)然后再加上一個(gè)生成的矩陣 生成的位置矩陣是如何生成的 根據(jù)數(shù)據(jù)的第二個(gè)維度 129 生成一個(gè)[0:1...
測試文件scratch_10 函數(shù) 輸入維度[5,129,256] 經(jīng)過一個(gè)全連接 [5,129,1024] 經(jīng)過一個(gè)激活函數(shù) relu [5,129,1024] 去掉非負(fù)數(shù)...
文章總結(jié):在進(jìn)行編碼之前進(jìn)行了一個(gè)位置嵌入,下一篇看位置函數(shù)的矩陣變化 'residual_dropout': 0.1, 函數(shù)pre_ffn_forward(在全連接之前的處理)
1.具體的矩陣運(yùn)算 對應(yīng)位置的數(shù)字相乘之后加上偏置項(xiàng) 小于0的數(shù)設(shè)置為0 大于0的數(shù)設(shè)置為本身 單個(gè)卷積矩陣 輸出的結(jié)果 因?yàn)榧せ詈瘮?shù)為RELU 大于零的部分保留 小于零的部...
1.輸入的語音數(shù)據(jù) 輸入的所有數(shù)據(jù) 輸入的掩碼,掩碼取的是size的最大長度 2.將數(shù)據(jù)和掩碼放入卷積層 輸出的維度和掩碼 3.具體變化過程 #1.x = x.unsquee...
參數(shù): self實(shí)例化參數(shù) inputs 輸入 張量 inputs_mask:對應(yīng)的掩碼張量 輸入的掩碼