學(xué)習(xí) Transformer 相關(guān)的知識,需要掌握以下數(shù)學(xué)基礎(chǔ):
1. 線性代數(shù)
? 矩陣運(yùn)算:加法、乘法、轉(zhuǎn)置、求逆等
? 向量空間:基、線性變換
? 特征值與特征向量:用于理解自注意力機(jī)制的權(quán)重分布
? 奇異值分解(SVD)與主成分分析(PCA):用于降維、理解詞向量表示
2. 概率與統(tǒng)計
? 概率分布:均勻分布、正態(tài)分布、多項(xiàng)分布等
? 條件概率:貝葉斯定理、馬爾可夫性質(zhì)
? 信息熵與交叉熵:用于損失函數(shù)計算
? KL 散度:衡量兩個概率分布之間的差異
3. 微積分
? 導(dǎo)數(shù)與偏導(dǎo)數(shù):用于梯度計算和優(yōu)化
? 鏈?zhǔn)椒▌t:用于反向傳播
? 梯度下降:優(yōu)化 Transformer 模型的關(guān)鍵
4. 概率圖模型與最優(yōu)化方法(進(jìn)階)
? 自回歸模型:Transformer 的解碼過程
? 變分推斷:用于 BERT、GPT 預(yù)訓(xùn)練目標(biāo)