2025-03-11

學(xué)習(xí) Transformer 相關(guān)的知識,需要掌握以下數(shù)學(xué)基礎(chǔ):

1. 線性代數(shù)

? 矩陣運(yùn)算:加法、乘法、轉(zhuǎn)置、求逆等

? 向量空間:基、線性變換

? 特征值與特征向量:用于理解自注意力機(jī)制的權(quán)重分布

? 奇異值分解(SVD)與主成分分析(PCA):用于降維、理解詞向量表示

2. 概率與統(tǒng)計

? 概率分布:均勻分布、正態(tài)分布、多項(xiàng)分布等

? 條件概率:貝葉斯定理、馬爾可夫性質(zhì)

? 信息熵與交叉熵:用于損失函數(shù)計算

? KL 散度:衡量兩個概率分布之間的差異

3. 微積分

? 導(dǎo)數(shù)與偏導(dǎo)數(shù):用于梯度計算和優(yōu)化

? 鏈?zhǔn)椒▌t:用于反向傳播

? 梯度下降:優(yōu)化 Transformer 模型的關(guān)鍵

4. 概率圖模型與最優(yōu)化方法(進(jìn)階)

? 自回歸模型:Transformer 的解碼過程

? 變分推斷:用于 BERT、GPT 預(yù)訓(xùn)練目標(biāo)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 召回&排序 特征 從分布類型看,分為連續(xù)類型、離散類型、序列類型。從特征主體劃分,可以分為User特征、Item特...
    lym94閱讀 832評論 0 0
  • 1 為什么要對特征做歸一化 特征歸一化是將所有特征都統(tǒng)一到一個大致相同的數(shù)值區(qū)間內(nèi),通常為[0,1]。常用的特征歸...
    顧子豪閱讀 1,851評論 0 1
  • 1 為什么要對特征做歸一化 特征歸一化是將所有特征都統(tǒng)一到一個大致相同的數(shù)值區(qū)間內(nèi),通常為[0,1]。常用的特征歸...
    顧子豪閱讀 7,124評論 2 22
  • Improving Deep Regression with Ordinal Entropy ICLR 2023 ...
    Valar_Morghulis閱讀 2,859評論 0 3
  • AIGC基本概念 AI大模型是一個學(xué)術(shù)概念嗎? AI大模型,即人工智能大模型,是一個學(xué)術(shù)概念,指的是使用大量數(shù)據(jù)、...
    游俠_6fb7閱讀 647評論 0 0

友情鏈接更多精彩內(nèi)容