第二章線性代數(shù)

2.1 標(biāo)量、向量、矩陣和張量

要想用逆矩陣求解Ax=b,A必須滿足是方陣(square)，且不是奇異(singular)矩陣
奇異矩陣：列向量線性相關(guān)的方陣
線性無關(guān)：如果一組向量中的任意一個(gè)向量都不能表示成其他向量的線性組合，那么這組向量稱為線性無關(guān)（linearly independent）

范數(shù)(norm)衡量向量的大小:將向量映射到非負(fù)值的函數(shù)
L2范數(shù)：向量元素平方和的開根號，機(jī)器學(xué)習(xí)中一般使用平方L2范數(shù)(why???)
- 平方L2范數(shù)：向量元素的平方和
- 計(jì)算上方便：可以簡單地通過向量與自身的點(diǎn)積x^T*x計(jì)算得到
- 數(shù)學(xué)上也方便：平方L2范數(shù)對x中每個(gè)元素的導(dǎo)數(shù)結(jié)果只取決于對應(yīng)的元素，而L2范數(shù)對每個(gè)元素求導(dǎo)卻和所有元素相關(guān)
L1范數(shù)：很多情況下平方L2范數(shù)并不受歡迎(why???)
- 它在原點(diǎn)附近增長緩慢:原點(diǎn)附近的x元素接近于0，平方后的結(jié)果更加接近于0，而在很多機(jī)器學(xué)習(xí)應(yīng)用中，區(qū)分恰好是0元素和非0但很小的元素是很重要的。
- 當(dāng)機(jī)器學(xué)習(xí)問題中0和非0元素之間的差異非常重要時(shí)，通常使用L1范數(shù)。每當(dāng)x 中某個(gè)元素從0 增加?，對應(yīng)的L1 范數(shù)也會增加?
L∞范數(shù)，也被稱為最大范數(shù)（maxnorm）:向量中絕對值最大的元素的絕對值
衡量矩陣的大?。篎robenius 范數(shù)（Frobenius norm）
- 類似于向量的L2范數(shù)：矩陣元素平方和的開根號

對角矩陣(diagonal matrix):只在主對角線上含有非0元素，其他位置都是0。收到關(guān)注（why???)
- 用diag(v) 表示一個(gè)對角元素由向量v 中元素給定的對角方陣
- 對角矩陣參與的矩陣乘法計(jì)算高效：計(jì)算乘法diag(v)x，我們只需要將x 中的每個(gè)元素xi 放大vi 倍。換言之，diag(v)x = v ⊙ x
- 當(dāng)對角矩陣的逆矩陣存在時(shí)，計(jì)算也比較高效:diag(v)^-1 = diag([1/v1; : : : ; 1/vn]?)
- 通過將一些矩陣限制為對角矩陣，我們可以得到計(jì)算代價(jià)較低的（并且簡明扼要的）算法
- 對于一個(gè)長方形對角矩陣D 而言，乘法Dx 會涉及到x 中每個(gè)元素的縮放，如果D 是瘦長型矩陣，那么在縮放后的末尾添加一些零；如果D是胖寬型矩陣，那么在縮放后去掉最后一些元素
向量x,y正交:(orthogonal):x^T*y=0即∥x∥2∥y∥2 cos Θ=0
如果向量不僅正交，而且范數(shù)(L2范數(shù))都為1，稱它們是標(biāo)準(zhǔn)正交（orthonormal）
正交矩陣（orthogonal matrix）是指行向量標(biāo)準(zhǔn)正交和列向量也標(biāo)準(zhǔn)正交的方陣，A?A = AA?
= I，則A^-1 = A?,所以正交矩陣受到關(guān)注是因?yàn)榍竽嬗?jì)算代價(jià)小。

方陣A 的特征向量（eigenvector）是指與A 相乘后相當(dāng)于對該向量進(jìn)行縮放的非零向量v：Av =λv，λ為特征值，v為特征向量
A 的特征分解（eigendecomposition）可以記作A = Vdiag(λ)V^-1
每個(gè)實(shí)對稱矩陣都可以分解成實(shí)特征向量和實(shí)特征值A(chǔ)=QΛQ?,Q是A特征向量組成的正交矩陣，Λ是對角矩陣
矩陣分解可以得到的信息：
- 矩陣是奇異的：當(dāng)且僅當(dāng)含有0特征值
- 正定矩陣：所有特征值都是正數(shù)；半正定矩陣：所有特征值都是大于等于0；負(fù)定矩陣：所有特征值都是負(fù)數(shù)；半負(fù)定：所有特征值都小于等于0。
- 正定矩陣還保證x?Ax = 0 ==>x = 0。

每個(gè)實(shí)數(shù)矩陣都有一個(gè)奇異值分解，但不一定都有特征分解。例如，非方陣的矩陣沒有特征分解，這時(shí)我們只能使用奇異值分解。
奇異值分解：將矩陣A 分解成三個(gè)矩陣的乘積：A = UDV?
矩陣U 和V 都定義為正交矩陣，而矩陣D 定義為對角矩陣。矩陣D 不一定是方陣
SVD最有用的一個(gè)性質(zhì)可能是拓展矩陣求逆到非方矩陣上