數學基礎Part

——數學基礎部分,包括標量、向量、矩陣、張量,導數&偏導數,特征值&特征向量,概率&分布。

一、“量”

概念

標量:單獨的“數”。

向量:一維有序排列的數。

矩陣:二維數據表形式。

張量:N維,基于向量和矩陣的推廣。0階張量是標量,1階張量是向量,2階張量是矩陣,3階可表示如RGB彩色圖像。

向量范數

1范數:各元素的絕對值的和

2范數:各元素的平方和的平方根

p范數:1范數和2范數的普遍形式,||X||_{p}=(\sum_{i=1}^n |x_{i}|^{p})^ \frac{1}{p}

負無窮范數:最小的絕對值

正無窮范數:最大的絕對值

矩陣范數

無窮范數(行模):取最大的行的絕對值和,||A||_{\infty } = max_{1\leq i \leq n} \sum_{j=1}^{m} |a_{ij}|

核范數:A的奇異值之和(即SVD)。

L0范數:A非零元素的個數。

L1范數(列模):取最大的列的絕對值和,||A||_{1 } = max_{1\leq j \leq m} \sum_{i=1}^{n} |a_{ij}|

F范數:各個元素平方和的平方根,通常也叫L2范數。

2范數(譜模):A^{T}A矩陣的最大特征值的平方根,||A||_{2}=\sqrt{\lambda _{max}(A^{T}A)} =\sqrt{\max_{1\leq i \leq n} |\lambda_{i}|}。

L21范數:先求每列的F范數,再將結果求L1范數,它是介于L1和L2之間的一種范數。

二、“導”

導數:對含有一個自變量的函數進行求導,就是曲線在某一點切線的斜率。

偏導數:對多于一個的自變量的函數中的一個自變量求導,就是函數在某一點上沿坐標軸正方向的的變化率。(注:求解時將另外一個變量看做常數。)

三、特征值&奇異值

特征值:對于n階方陣A,若存在n維非零向量x,使得Ax=\lambda x,則x為A的特征向量,\lambda為A的特征值。特征值表示的是這個特征到底有多重要,而特征向量表示這個特征是什么。特征值分解的局限在于變換的矩陣必須是方陣。

奇異值:奇異值分解(SVD)適用于任意矩陣。將A與其轉置相乘A^{T}A將會得到一個方陣,再求特征值。對于非奇異矩陣進行奇異值分解(SVD),得到的奇異值,就是特征值。(注:奇異矩陣是行列式為 0 的矩陣,即不可逆矩陣;非奇異矩陣是行列式不為 0 的矩陣|A|\neq 0,也就是可逆矩陣。)

四、概率

隨機變量:當變量的取值的概率不是1時,變量就變成了隨機變量。

概率分布:用來描述隨機變量或一簇隨機變量的每一個可能的狀態(tài)的可能性大小的方法。

概率質量函數(Probability Mass Function, PMF):描述離散型隨機變量的概率分布P。

概率密度函數(Probability Density Function, PDF):描述連續(xù)型隨機變量的概率分布p。

?聯合概率:聯合概率指類似P(X=a,Y=b)這樣,包含多個條件,且所有條件同時成立的概率。聯合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率。

?邊緣概率:邊緣概率是某個事件發(fā)生的概率,而與其它事件無關。邊緣概率指類似于P(X=a),僅與單個隨機變量有關的概率。

鏈式法則:條件概率得出,P(AB) = P(B|A)*P(A)進行多輪的推廣,即P(A_1 A_2 ... A_n)=P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})。

獨立:兩個隨機變量x、y,概率分布表示成兩個因子乘積形式,一個因子只包含x,另一個因子只包含y,兩個隨機變量相互獨立。

條件獨立:?給定Z的情況下,X和Y條件獨立,當且僅當X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)。

五、分布

伯努利分布(離散):即0-1分布,只有兩種結果(p和1-p概率)、獨立的隨機實驗,期望p,方差p*(1-p),相當于N=1的二項分布(執(zhí)行n次可叫n重伯努利試驗)。

二項式分布(離散):X~b(n,p)即N次獨立重復事件,相當于N次伯努利,期望np,方差n*p*(1-p)。

幾何分布(離散):伯努利試驗發(fā)生N次首次成功的概率(即前n-1次都失?。?,記為X~GE(p),即(1-p)^(k-1),N的概率分布期望EX=1/p,方差DX=(1-p)/p^2

泊松分布(離散):單位時間內隨機事件發(fā)生的次數的分布X~P(λ),期望和方差都是λ (λ>0)。若隨機變量X取自然數,在n次獨立試驗中出現的次數x恰好為k次的概率:P(X=K)=\frac{e^{-\lambda}\lambda ^{k}}{k!} 。

正態(tài)分布(連續(xù)):即高斯分布,當影響因素很多,沒有完全左右結果的因素,則呈現正態(tài)分布X~N(μ,σ^2),期望μ,方差σ^2。

卡方分布(連續(xù)):k個標準正態(tài)分布即X~N(0,1)的平方和構成了服從自由度為k的卡方分布,X~\chi^2?,期望為自由度k,方差為2k。

拉普拉斯分布:允許我們在任意一點 $\mu$處設置概率質量的峰值Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

指數分布:用來描述在x=0點處取得邊界點的分布,  p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) 。指數分布用指示函數I_{x\geq 0}?來使x取負值時的概率為零。

狄拉克分布(連續(xù)):保證概率分布中所有質量都集中在一個點上。狄拉克分布的狄拉克函數(也稱單位脈沖函數)定義為如圖所示。

狄拉克函數

分布相關概念

期望:表示事件可能結果的概率乘以其結果的累加和,反映隨機變量平均取值的大小,E(ax+by+c) = aE(x)+bE(y)+c。離散函數期望為E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)},連續(xù)函數期望為E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}。(注:如果X、Y相互獨立,則E(xy)=E(x)E(y)?。)

方差:表示隨機變量和其數學期望(即均值)之間的偏離程度,Var(x) = E((x-E(x))^2)。具有性質Var(x) = E(x^2) -E(x)^2,如果X、Y相互獨立,則Var(ax+by)=a^2Var(x)+b^2Var(y)。

協方差:表示兩個變量線性相關性強度,Cov(x,y)=E((x-E(x))(y-E(y))),具體計算公式為Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} 。獨立變量的協方差為0。

相關系數:表示變量之間線性相關程度,Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}。具有有界性(?[-1,1]);值越接近1,兩個變量越正相關;越接近-1,越負相關性越強,為0時無相關性。


參考文獻

1、《深度學習500問》 https://github.com/scutan90/DeepLearning-500-questions

2、向量與矩陣的范數(比較1-范數、2-范數、無窮范數、p-范數、L0范數 和 L1范數等)?https://blog.csdn.net/zaishuiyifangxym/article/details/81673491

3、特征值和奇異值的關系?https://blog.csdn.net/qq_36653505/article/details/82052593

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容