線性代數(shù)基礎(chǔ)

標量、向量、矩陣和張量

標量(scalar):斜體\mathit{s}表示標量,即一個單獨的數(shù),\mathit{s}\in \mathbb{R}表示\mathit{s}是實數(shù)集上的一個標量,\mathit{n}\in \mathbb{N}表示\mathit{n}為自然數(shù)集上的一個標量.
向量(vector):粗體\boldsymbol{x}表示向量,\boldsymbol{x} \in \mathbb{R}^n表示\boldsymbol{x}為實數(shù)集上的一個n維向量,\boldsymbol{x}_n表示向量的第n個元素,不特別說明時向量都表示列向量.
我們約定向量下標從0開始,到n-1結(jié)束.并且\sum_{i=0}^{n}x_n表示x_0+x_1+...+x_{n-1}
矩陣(matrix):粗體大寫字母\mathbf{A}表示矩陣,\mathbf{A} \in \mathbb{R}^{m\times n}表示\mathbf{A}是一個在實數(shù)集上m行n列的矩陣,A_{i,j}表示A中第i行第j列的元素,A_{m,n}表示矩陣右下角的元素,A_{i,:}表示矩陣第i行(可以認為是一個向量).
張量(tensor):字體\mathsf{A}表示張量,A_{i,j,k}表示張量\mathsf{A}中坐標為(i,j,k)的元素.
矩陣轉(zhuǎn)置:用\mathbf{A}^T表示\mathbf{A}的轉(zhuǎn)置
矩陣加法:shape相同的兩個矩陣可以相加,\mathbf{C} = \mathbf{A} + \mathbf{B},其中C_{i,j} = A_{i,j} + B_{i,j},即對應(yīng)位置元素相加
標量點乘矩陣和矩陣加上標量:\mathbf{C} = \mathit{a} \cdot \mathbf{B}+\mathit{c},其中C_{i,j}=a \cdot B_{i,j} + c
廣播:在深度學習中我們允許矩陣和向量相加(前提是矩陣的列數(shù)和向量的長度一致),產(chǎn)生一個新的矩陣,操作是讓矩陣的每一行與這個向量相加.\mathbf{C}=\mathbf{A}+\boldsymbol,其中C_{i,j}=A_{i,j}+b_j,這種運算稱為廣播.

矩陣和向量的乘法運算

矩陣乘積(點乘):若\mathbf{A} \in \mathbb{R}^{m \times n},\mathbf{B} \in \mathbb{R}^{n \times p},則\mathbf{C} = \mathbf{AB},其中\mathbf{C} \in \mathbb{R}^{m \times p}C_{i,j} = \sum_{e=0}^{n}A_{i,e}B_{e,j}(即A的第i行和B的第j列做向量點乘的結(jié)果)
矩陣元素對應(yīng)乘積(Hadamard):若\mathbf{A}.shape = \mathbf{B}.shape,則有\mathbf{C} = \mathbf{A} \odot \mathbf{B},其中C_{i,j}=A_{i,j}B_{i,j}
向量點乘:若列向量\boldsymbol{x} \in \mathbb{R}^{n},\boldsymbol{y} \in \mathbb{R}^{n},則有\mathit{z} = \boldsymbol{x} ^{T} \boldsymbol{y},其中\mathit{z} = \sum_{i=0}^{n}x_i y_i,出于簡化目的我們定義點乘運算\boldsymbol{x} \cdot \boldsymbol{y} = \boldsymbol{x} ^{T} \boldsymbol{y}
矩陣乘積滿足分配率和結(jié)合律:
\mathbf{A}(\mathbf{B}+\mathbf{C}) = \mathbf{AB} + \mathbf{AC} \\ \mathbf{A}(\mathbf{BC})=\mathbf{A}(\mathbf{BC})
注意矩陣乘法不一定滿足交換律
向量乘積滿足交換律:
\boldsymbol{x} \cdot \boldsymbol{y} =\boldsymbol{y} \cdot \boldsymbol{x}
向量乘積的轉(zhuǎn)置:
(\mathbf{AB})^T = \mathbf{B}^T\mathbf{A}^T
線性代數(shù)表示線性方程組:
\mathbf{A}\boldsymbol{x}=\boldsymbol
其中\mathbf{A} \in \mathbb{R}^{m \times n}是參數(shù)矩陣,\boldsymbol{x} \in \mathbb{R}^n表示未知向量,其中每個元素都是未知的 ,\boldsymbol \in \mathbb{R}^{m}是已知向量,用這種形式可以方便地表示線程方程組.

單位矩陣和逆矩陣

單位矩陣:主對角線上的元素都為1,其余元素都為0的方陣稱為n維單位矩陣,記為\mathbf{I}_n,\mathbf{I}_n \in \mathbb{R}^{n \times n}.單位矩陣乘以任意向量都不會改變向量的值.
\forall \boldsymbol{x} \in \mathbb{R}^n, \mathbf{I}_n \boldsymbol{x} = \boldsymbol{x}
矩陣的逆(默認表示左逆):如果某個矩陣乘以\mathbf{A}的結(jié)果為一個單位矩陣,則稱這個矩陣為\mathbf{A}的逆,記為\mathbf{A}^{-1}.即
\mathbf{A}^{-1}\mathbf{A}=\mathbf{I}_n
方陣和奇異矩陣: 如果矩陣\mathbf{A} \in \mathbb{R}^{m \times m},則稱\mathbf{A}為方陣.如果方陣的某兩個列向量線性相關(guān)(即\exists \alpha \in \mathbb{R}\ s.t.\ \alpha \boldsymbol{y}_1 = \boldsymbol{y}_2,其中\boldsymbol{y}_1,\boldsymbol{y}_2是矩陣\mathbf{A}的任意2個列向量),則稱這個方陣為奇異矩陣.奇異矩陣無法使用矩陣逆來求解方程\mathbf{A}\boldsymbol{x}=\boldsymbol
矩陣的右逆:若\mathbf{A}\mathbf{A}^{-1}=\mathbf{I}_n,則稱\mathbf{A}^{-1}為矩陣的右逆.對于方陣而言它的左逆和右逆是相等的.

范數(shù)(norm)

范數(shù)是滿足如下性質(zhì)的任意函數(shù)f:

  • f(x) = 0 \Rightarrow \boldsymbol{x} = \boldsymbol{0}
  • f(x+y) \leq f(x)+f(y)
  • \forall \alpha \in \mathbb{R} ,f(\alpha x) = |\alpha| f(x)
    Lp范數(shù):若\boldsymbol{x} \in \mathbb{R}^n,則\boldsymbol{x}的p范數(shù)
    \|\boldsymbol{x}\|_p=\left( \sum_{i=0}^{n}|x_i|^p \right) ^{\frac{1}{p}}
    L2范數(shù):又稱歐幾里得范數(shù),它表示從原點到向量\boldsymbol{x}終點的歐幾里得距離.我們可以簡化地將\|\boldsymbol{x}\|_2表示為\|\boldsymbol{x}\|.
    \|\boldsymbol{x}\|=\left( \sum_{i=0}^{n}|x_i|^2 \right) ^{\frac{1}{2}}
    L1范數(shù):L1范數(shù)對0和非0元素的差異非常敏感,
    \|\boldsymbol{x}\|_1= \sum_{i=0}^{n}|x_i|
    最大范數(shù):即L\infty范數(shù)
    \|\boldsymbol{x}\| _\infty= max(|x_i|)
    Frobenius范數(shù):可以用于衡量矩陣的大小(\mathbf{A} \in \mathbb{R}^{m \times n}):
    \|\mathbf{A}\| _F= \left(\sum_{i=0}^{m}\sum_{j=0}^{n}|A_{i,j}|^2 \right) ^{\frac{1}{2}}
    向量點乘也可以使用L2范數(shù)來計算
    \boldsymbol{x} \cdot \boldsymbol{y} = \|\boldsymbol{x}\| \cdot \|\boldsymbol{y}\| \cdot \cos \theta
    其中\theta\boldsymbol{x}\boldsymbol{y}的夾角.

特殊矩陣和向量

對角矩陣: 若\mathbf{D} \in \mathbb{R}^{m \times m},且\forall \ i,j \geq 0; i,j \lt m ; i \neq j \quad s.t. \quad D_{i,j}=0,則稱\mathbf{D}為對角矩陣.即只有主對角線上存在非0元素的矩陣稱為對角矩陣.單位矩陣是一個特殊的對角矩陣.
diag(\boldsymbol{v})表示對角線上的元素為向量\boldsymbol{v}的對角方陣.對角方陣具有如下性質(zhì):

  • diag(\boldsymbol{v})\boldsymbol{x}=\boldsymbol{v}\odot \boldsymbol{x}
  • diag(\boldsymbol{v})^{-1} = diag([v_0^{-1},v_1^{-1},...,v_{n-1}^{-1}]^T)

對稱矩陣: 若\mathbf{A} = \mathbf{A}^T則稱\mathbf{A}為對稱矩陣.
單位向量:若\| \boldsymbol{x}\| = 1,則\boldsymbol{x}稱為單位向量.
正交向量:若\boldsymbol{x} \cdot \boldsymbol{y}=0則稱\boldsymbol{x}\boldsymbol{y}為正交向量.如果這兩個向量都有非0范數(shù),則這兩個向量的夾角為90°.若這兩個向量都是單位向量,則稱它們標準正交.
正交矩陣:若方陣行向量和列向量分別標準正交,即\mathbf{A}^T\mathbf{A}=\mathbf{A}\mathbf{A}^T=\mathbf{I}則稱這個方陣為正交矩陣.正交矩陣具有\mathbf{A}^T = \mathbf{A} ^ {-1}的性質(zhì).

特征分解

定義:將矩陣分解成一組特征向量和特征值.方陣\mathbf{A}的特征向量指與\mathbf{A}相乘后相當于對改向量進行縮放的非零向量\boldsymbol{v}.即
\mathbf{A}\boldsymbol{v}=\lambda\boldsymbol{v}
.其中標量\lambda稱作這個特征向量對應(yīng)的特征值.
由于如果\boldsymbol{v}\mathbf{A}的特征向量,那么\mathit{s}\boldsymbol{v}也是\mathbf{A}的特征向量(\mathit{s} \in \mathbb{R},\mathit{s} \neq 0),所以通常我們只關(guān)注矩陣的單位特征向量.
假設(shè)矩陣\mathbf{A}有n個線性無關(guān)的特征向量{\boldsymbol{v}_0,\boldsymbol{v}_1,...,\boldsymbol{v}_{n-1}},對應(yīng)特征值{\mathit{\lambda}_0,\mathit{\lambda}_1,...,\mathit{\lambda}_{n-1}}.令矩陣\mathbf{V} = [\boldsymbol{v}_0,\boldsymbol{v}_1,...,\boldsymbol{v}_{n-1}],向量\boldsymbol{\lambda}=[\mathit{\lambda}_0,\mathit{\lambda}_1,...,\mathit{\lambda}_{n-1}]^T,則\mathbf{A}的特征分解可以記作
\mathbf{A}=\mathbf{V}diag(\boldsymbol{\lambda})\mathbf{V}^{-1}.

`

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容