费av在线,99精品五区,日韩传媒国产

介紹
第一部分參數(shù)方法——類密度模型參數(shù)估計
第二部分監(jiān)督學習——分類（基于似然的方法）
第三部分監(jiān)督學習——分類（基于判別式的方法）（參數(shù)方法——判別式參數(shù)估計）
第四部分監(jiān)督學習——回歸
第五部分監(jiān)督學習——關聯(lián)規(guī)則
第六部分維度規(guī)約（特征的提取和組合）
第七部分半?yún)?shù)方法
第八部分非監(jiān)督學習——聚類
第九部分非參數(shù)方法——密度估計
第十部分非參數(shù)方法——決策樹實現(xiàn)的判別式
第十一部分多層感知器——非參數(shù)估計器
第十二部分局部模型
第十三部分支持向量機與核機器
第十四部分隱馬爾科夫模型
第十五部分參數(shù)的貝葉斯估計
第十六部分集成學習——組合多學習器
第十七部分增強學習
第十八部分機器學習實驗
第十九部分特征工程與數(shù)據(jù)預處理

任何分類和回歸方法的復雜度都依賴于輸入的數(shù)量。我們需要輸入數(shù)據(jù)含有可供決策的信息。理想情況下，不需要將特征選擇或特征提取作為一個單獨的過程。并且有效的方法，應該能夠利用任何必要的特征，并丟棄不相關的特征。

但將降維作為一個單獨的預處理步驟，有如下一些原因：

1、在大多數(shù)機器學習算法中，復雜度依賴于輸入的維度d及樣本規(guī)模N。為了減少存儲及計算時間，需要考慮降低維度。同時降低d也降低了檢驗算法的復雜度。

2、去除不必要的采集數(shù)據(jù)，

3、更簡單的模型可以在小數(shù)據(jù)集上更魯棒。（《監(jiān)督學習——分類（基于判別式的方法）（參數(shù)方法——判別式參數(shù)估計）》多元情況部分中，提到過高維輸入x可能存在奇異的協(xié)方差矩陣估計）

4、當數(shù)據(jù)可以用較少的特征解釋時，有利于理解數(shù)據(jù)背后的過程，并提取知識，利于解釋。

降低維度主要有兩類方法：特征選擇、特征提取。

特征選擇——從d個維中找到提供最多信息的k個維度，丟棄其他（d-k）個維度的數(shù)據(jù)。

特征提取——找到k個維度的新集合，這k個維度是原來d個維度的組合。這些方法可以是監(jiān)督的或者非監(jiān)督的。如同為線性投影方法的主成分分析（PCA）和線性判別分析（LDA）分別是非監(jiān)督的和監(jiān)督的。線性維度歸約以外，還有非線性維度歸約方法，如等距特征映射（Isomap）、局部線性嵌入（LLE）、拉普拉斯特征映射。

線性空間中的降維

主成分分析

1、主成分計算

在投影方法中，我們要找到的是從原d維輸入空間到新的 $k(k<d)$ 維空間的、具有最小信息損失的映射。

x在方向\omega 上的投影為 $z=\omega^T \mathbf{x}$ 。

PCA是一種非監(jiān)督方法，其最大化的準則是方差，主成分是這樣的 $\omega _1$ ，樣本投影在 $\omega _1$ 上后最分散。同時為了保證解唯一，要求 $\|\omega_1\|=1$ 。

如果 $z_1=\omega_1^T \mathbf{x}$ 且 $Cov(\mathbf{x})=\Sigma$ ，則 $Var(z_1)=\omega_1^T\Sigma\omega_1$ 。尋找 $\omega_1$ 使得 $Var(z_1)$ 在約束 $\omega_1^T\omega_1=1$ 下最大化。寫成拉格朗日問題，有：

$\max_{\omega_1}\omega_1^T\Sigma\omega_1-\alpha(\omega_1^T\omega_1-1)$

關于 $\omega_1$ 求導并令它等于0，有 $2\Sigma\omega_1-2\alpha\omega_1=0$ ，也就是 $\Sigma\omega_1=\alpha\omega_1$ 。 $\omega_1$ 是 $\Sigma$ 的特征向量， $\alpha$ 是對應的特征值。因為我們想最大化方差 $\omega_1^T\Sigma\omega_1=\alpha\omega_1^T\omega_1=\alpha$ ，特征值就等于方差，所以選擇最大化特征值的特征向量。

因此，主成分是輸入樣本協(xié)方差矩陣的具有最大特征值的特征向量。

第二個主成分 $\omega_2$ 也應該最大化方差 $Var(z_2)$ ，具有單位長度，并且與 $\omega _1$ 正交（也就是與 $\omega_1$ 不相關）。則對第二個主成分有：

$\max_{\omega_2}\omega_2^T\Sigma\omega_2-\alpha(\omega_2^T\omega_2-1)-\beta(\omega_2^T\omega_1-0)$

關于 $\omega_2$ 求導并令它等于0，有 $2\Sigma\omega_2-2\alpha\omega_2-\beta\omega_1=0$ 。左乘 $\omega_1^T$ ，得 $2\omega_1^T\Sigma\omega_2-2\alpha\omega_1^T\omega_2-\beta\omega_1^T\omega_1=0$ 。

其中 $\omega_1^T\Sigma\omega_2=\omega_2^T\Sigma\omega_1=\lambda_1\omega_2^T\omega_1=0$ 。

于是得 $\beta=0$ ， $\Sigma\omega_2=\alpha\omega_2$ 。表明 $\omega _2$ 是 $\Sigma$ 得具有第二大特征值的特征向量。類似地，其他維可由遞減特征值的特征向量給出。并且，因為 $\Sigma$ 是對稱的，所以對于任意兩個不同的特征值，對應的特征向量是正交的。

最后有降維后的數(shù)據(jù) $\mathbf{z}=\mathbf{W}^T(\mathbf{x}-\mathbf{m})$ ，其中W的k列是\Sigma 的估計S的k個主特征向量。投影前從 x 中減去樣本均值 m ，將數(shù)據(jù)原點中心化。

等同地，我們想找到一個矩陣W，使得 $\mathbf{z}=\mathbf{W}^T\mathbf{x}$ (不失一般性，x已經(jīng)中心化)， $Cov(\mathbf{z})=\mathbf{D}=\mathbf{W}^TS\mathbf{W}$ ，其中D是對角矩陣，既我們希望得到不相關的z_i。令S是D的估計， $d\times d$ 矩陣C的第 i 列是S的規(guī)范化特征向量 $c_i$ ，則 $C^TC=I$ 。且有

$\begin{align}S&=SCC^T\\&=S(\mathbf{c_1},\mathbf{c_2},\cdots,\mathbf{c_d})C^T\\&=(\lambda_1\mathbf{c_1},\lambda_2\mathbf{c_2},\cdots,\lambda_d\mathbf{c_d})C^T\\&=\lambda_1\mathbf{c_1}\mathbf{c_1^T}+\cdots+\lambda_d\mathbf{c_d}\mathbf{c_d^T}\\&=CDC^T\end{align}$

其中D是對角矩陣，對角元素是特征值\lambda_i。這稱為S的譜分解。C是正交的，有 $C^TSC=D$ 。所以可以令 $\mathbf{W}=C$ ， $Cov(\mathbf{z})$ 是對角矩陣。

2、選取主成分

得到了各主成分 $\omega _i$ ，根據(jù)特征值大小，可統(tǒng)計方差比例 $\frac{\lambda_1,+\cdots+\lambda_k}{\lambda_1,+\cdots+\lambda_k+\cdots+\lambda_d}$ ，取貢獻了一定比例以上的前k個主成分?；蚩赏ㄟ^忽略小于平均輸入方差的特征值對應的特征向量，來得到k個主成分。

PCA解釋方差，但對離群點很敏感。少量離群點會明顯影響方差，從而對特征向量產(chǎn)生很大影響。一般會通過計算數(shù)據(jù)點的馬氏距離，丟棄孤立的離群點，保證估計的魯棒性。

因子分析

因子分析（FA）同PCA一樣時非監(jiān)督的。假設存在不可觀測的潛在因子集合 $z_j,j=1,\cdots,k$ ，它們組合成樣本實例 $\mathbf{x}$ 。與PCA方法相反，F(xiàn)A的目的時通過較少的因子 z 刻畫觀測變量 x 之間的依賴性。也就是相較于PCA的 $\mathbf{z}=\mathbf{W}^T\mathbf{x}$ ，F(xiàn)A試圖找到 z 使得其構成 x ： $\mathbf{x}=V^T\mathbf{z}$ 。

在PCA中，挑選大特征值的特征向量構成W，損失了沒有被選中的特征值對應的方差。但FA雖也在一個更小的維空間重構數(shù)據(jù)，但沒有丟失信息。

特征嵌入

X是 $N\times d$ 的樣本數(shù)據(jù)矩陣，協(xié)方差矩陣是 $d\times d$ 的。如果X已中心化，具有零均值，則協(xié)方差矩陣等于 $X^TX$ 。PCA使用 $X^TX$ 的特征向量，譜分解是 $X^TX=CDC^T$ ，C的各列是 $X^TX$ 的特征向量，D是對應特征值構成的 $d \times d$ 對角矩陣。

如果我們想將維度歸約到 $k<d$ ，在PCA中，假定W中的特征向量按特征值大小排序，取W的前k列（ $X^TX$ 具有最大特征值的k個特征向量），我們記這些特征向量為 $\omega _i$ ，對應特征值為 $\lambda_i$ 。從原始輸入空間映射到新的k維空間：

$z_i^t=\mathbf{\omega}_i^T\mathbf{x}^t,i=1,\cdots ,k;t=1,\cdots,N$

對任意 $i\leq k$ ，有

$\begin{align}(X^TX)\omega_i&=\lambda_i\omega_i\\(XX^T)X\omega_i&=\lambda_iX\omega_i\end{align}$

因此， $X\omega_i$ 是 $XX^T$ 的具有特征值 $\lambda_i$ 的特征向量。注意， $X^TX$ 是 $d \times d$ 的，而 $XX^T$ 是 $N \times N$ 的。

其譜分解為 $XX^T=VEV^T$ ，其中 $V$ 是 $N \times N$ 的， $V$ 的列是 $XX^T$ 的特征向量 $v_i=X\omega_i / \sqrt{\lambda_i}$ （單位化后的）， $E$ 是對應特征值構成的對角矩陣。 $XX^T$ 的N維特征向量是新的特征嵌入（FE）空間的坐標。

求得了 $v_i$ ，可直接得到 $X\omega_i$ （PCA所做的）： $z_i^t=V_{ti}\sqrt{E_{tt}}$

通常 $d<N$ ，這是使用PCA來計算 $X^TX$ 更簡單。而有時 $d>N$ ，則計算 $XX^T$ 容易一些。

對于PCA，得到的是投影向量，可通過取x與特征向量的點積，將任意一個x投影到新的k維空間。但線性嵌入沒有學習得到投影映射的模型，每當有一個新的數(shù)據(jù)加入，都需要重新進行計算。

多維定位

假設N個點，知道每對點間距離 $d_{ij}$ （不需知道這些點的坐標，維度，也不必知道如何計算這些距離）。多維定位（MDS）是把這些點映射到低維空間的方法，使它們在低維空間重得歐式距離盡可能接近原始空間中的給定距離 $d_{ij}$ 。

可以使用MDS進行維度歸約，通過d維 x 空間的逐對歐氏距離，將距離作為MDS的輸入。如有樣本 $X=\{\mathbf{x}^t \}_{t=1}^N$ ，其中 $\mathbf{x}^t\in \mathbf{R}^d$ ，在運用MDS方法時，不需知道 x 的具體坐標。對每兩個點 r 和 s。它們之間的平方歐氏距離為

$d_{rs}^2=\|\mathbf{x}^r-\mathbf{x}^s\|^2=\sum_{j=1}^d(x_j^r)^2+\sum_{j=1}^dx_j^rx_j^s+\sum_{j=1}^d(x_j^s)^2=b_{rr}+b_{ss}-2b_{rs}$ ，其中 $b_{rs}=\sum_{j=1}^dx_j^rx_j^s$ 。

將數(shù)據(jù)中心化并假定 $\sum_{r=1}^Nx_j^r=0,\forall j=1,\cdots,d$ 。由此有 $\sum_{r=1}^Nb_{rs}=\sum_{j=1}^d\sum_{r=1}^Nx_j^rx_j^s=0$ 。

并記 $T=\sum_{t=1}^Nb_{tt}$ ，得到

$\begin{align}\sum_rd_{rs}^2&=\sum_r(b_{rr}+b_{ss}-2b_{rs})\\&=T+Nb_{ss}\\\end{align}$

由上述各等式可得：

$\begin{align} b_{rs}&=\frac{1}{2} (d_{rs}^2-b_{rr}-b_{ss}) \\ &=\frac{1}{2} (d_{rs}^2-\frac{1}{N} (\sum_id_{is}^2-T)- \frac{1}{N} (\sum_id_{ri}^2-T)) \\ \end{align}$

故通過已知的 $d_{rs}$ ，計算得到了 $b_{rs}=\sum_{j=1}^dx_j^rx_j^s$ ，也就是得到了 $B=XX^T$ 。也就是線性嵌入的結果。通過B的特征向量得到各實例在新空間中的坐標。

PCA、FA與MDS做了同樣的事情，當d<N時，PCA代價更低。在相關性矩陣上而不是協(xié)方差矩陣上做PCA等價于用標準歐氏距離來做MDS，其中每個變量都有單位方差。而MDS

上面介紹的MDS用線性映射的方法，將原空間上的數(shù)據(jù)，線性地映射到新空間： $\mathbf{z}=g(\mathbf{x}|W)=W^T\mathbf{x}$

MDS中也可以使用非線性的映射，這被稱為Sammon映射。映射中的標準化誤差稱為Sammon應力：

$\begin{align} E(\theta |X)&=\sum_{r,s}\frac{(\|\mathbf{z}^r-\mathbf{z}^s\|-\|\mathbf{x}^r-\mathbf{x}^s\|)^2}{\|\mathbf{x}^r-\mathbf{x}^s\|^2}\\ &=\sum_{r,s}\frac{(\|g(\mathbf{x}^r|\theta)-g(\mathbf{x}^s|\theta)\|-\|\mathbf{x}^r-\mathbf{x}^s\|)^2}{\|\mathbf{x}^r-\mathbf{x}^s\|^2} \end{align}$

可對g使用任何回歸方法，訓練 $\theta$ 最小化訓練數(shù)據(jù) X 上的Sammon應力。

對于分類的情況，可在距離的定義中包含類信息，如 $d^{\prime}_{rs}=(1-\alpha)d_{rs}+\alpha c_{rs}$ ，其中 $c_{rs}$ 是r和s所屬類之間的距離。應該主觀地提供這個類間距離， $\alpha$ 用交叉驗證優(yōu)化。

線性判別分析

線性判別分析（LDA）是一種用于分類問題的維度歸約的監(jiān)督方法。

兩類問題，考慮兩個類 $C_1$ ， $C_2$ 的樣本，希望找到由向量 $\omega$ 定義的方向，使得當數(shù)據(jù)投影到 $\omega$ 上時，來自兩個類的樣本盡可能分開。

$z=\omega^Tx$ 是 $x$ 到 $\omega$ 上的投影。 $\mathbf{m}_1$ 和 $m_1$ 是 $C_1$ 類樣本在投影前和投影后的均值。注意這里 $\mathbf{m}_1\in R^d$ ，而 $m_1\in R$ 。設樣本 $X=\{\mathbf{x}^t,r^t \}$ ，對 $\mathbf{x}^t\in C_1$ 有 $r^t=1$ ， $\mathbf{x}^t\in C_2$ 有 $r^t=0$ 。

$m_1=\frac{\sum_t\omega^T\mathbf{x}^tr^t}{\sum_tr^t} =\omega^T\mathbf{m}_1$ ， $m_2=\frac{\sum_t\omega^T\mathbf{x}^t(1-r^t)}{\sum_t(1-r^t)} =\omega^T\mathbf{m}_2$ 。

來自兩個類的樣本投影后在均值周圍的散布是

$s_1=\sum_t(\omega^T\mathbf{x}^t-m_1)^2r^t$ ， $s_2=\sum_t(\omega^T\mathbf{x}^t-m_2)^2(1-r^t)$ 。

投影后，為了使各類盡可能地分開，則希望均值金盡可能遠離，并且類實例散布在盡可能小的范圍里。既， $|m_1-m_2|$ 大， $s_1^2+s_2^2$ 小。費希爾線性判別式是這樣的 $\omega$ ，最大化 $J(\omega)=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}$ 。其中

$\begin{align} (m_1-m_2)^2&=(\omega^T\mathbf{m}_1-\omega^T\mathbf{m}_2)^2\\&=\omega^T(\mathbf{m}_1-\mathbf{m}_2)(\mathbf{m}_1-\mathbf{m}_2)\omega\\&=\omega^TS_B\omega \end{align}$

$\begin{align} s_1^2+s_2^2&=\sum_t[(\omega^T\mathbf{x}^t-m_1)r^t+(\omega^T\mathbf{x}^t-m_2)(1-r^t)] \\ &=\sum_t[\omega^T(\mathbf{x}^t-\mathbf{m}_1)(\mathbf{x}^t-\mathbf{m}_1)^T\omega r^t+\omega^T(\mathbf{x}^t-\mathbf{m}_2)(\mathbf{x}^t-\mathbf{m}_2)^T\omega (1-r^t)] \\ &=\omega^TS_W\omega \end{align}$

其中 $S_B=(\mathbf{m}_1-\mathbf{m}_2)(\mathbf{m}_1-\mathbf{m}_2)^T$ 是類間散度矩陣， $S_W$ 是類內散布的和。從而

$J(\omega)=\frac{\omega^TS_B\omega}{\omega^TS_W\omega}=\frac{|\omega^T(\mathbf{m}_1-\mathbf{m}_2)^2|}{\omega^TS_W\omega}$ ，關于 $\omega$ 求 $J$ 的導數(shù)，并令其為0，得

$\frac{\omega^T(\mathbf{m}_1-\mathbf{m}_2)}{\omega^TS_W\omega} \left(2(\mathbf{m}_1-\mathbf{m_2}-\frac{\omega^T(\mathbf{m}_1-\mathbf{m}_2)}{\omega^TS_W\omega}S_W\omega) \right)=0$

其中 $\frac{(\mathbf{m}_1-\mathbf{m}_2)}{\omega^TS_W\omega}$ 是常數(shù)，有 $\omega=cS_W^{-1}(\mathbf{m}_1-\mathbf{m}_2)$ ，c是常數(shù)。這里關注的是 $\omega$ 的方向，故c取1。

對于K>2個類，我們希望找到矩陣W，使得 $z=W^T\mathbf{x}$ ，其中z是k維的，矩陣W是 $d \times k$ 矩陣。 $C_i$ 的類內散布矩陣是

$S_i=\sum_ir_i^t(\mathbf{x}^t-\mathbf{m}_i)(\mathbf{x}^t-\mathbf{m}_i)^T$ ，其中對 $\mathbf{x}^t\in C_i$ 有 $r_i^t=1$ ，否則為0。

總的類內散布矩陣是 $S_W=\sum_{i=1}^KS_i$ 。

類間散布矩陣是 $S_B=\sum_{i=1}^KN_i(\mathbf{m}_i-\mathbf{m})(\mathbf{m}_i-\mathbf{m})^T$ ，其中 $N_i=\sum_tr_i^t，\mathbf{m}=\frac1K\sum_{i=1}^K\mathbf{m}_i$ 。

投影后類間散布矩陣為 $W^TS_BW$ ，類內散布矩陣是 $W^TS_WW$ ，都是 $k\times k$ 矩陣。

同樣地，我們希望類間散布更大，類內散布更小，故最大化 $J(W)=\frac{|W^TS_BW|}{|W^TS_WW|}$ ，其解為 $\omega=S_W^{-1}S_B$ 的最大的特征向量。注意， $S_B$ 是K個秩為1的矩陣 $(\mathbf{m}_1-\mathbf{m})(\mathbf{m}_1-\mathbf{m}^T)$ 的和，并且可知它們之中最多只有K-1個是獨立，因此S_B的秩最大只有K-1。同2類一樣，數(shù)據(jù)在 $\omega$ 上的投影自然是降維的。

為了使用LDA，需要類內散布矩陣 $S_W$ 可逆。如果不可逆，可先用PCA消除奇異性，在運用LDA。同時，應該確保PCA 沒有把維度降得太低，使得LDA沒有多少事可做。

相比于PCA只注重總體的方差，LDA的監(jiān)督性注重類間散布。

流形學習

前面所介紹的方法，都需要數(shù)據(jù)落在一個線性子空間中。但這一前提并不總是成立。等距特征映射（Isomap）與下面的局部線性嵌入和拉普拉斯特征映射，不同于上面的方法，考慮的是流形（mainfold）上的輸入數(shù)據(jù)，且為非監(jiān)督方法。關注的局部數(shù)據(jù)的逐對距離，而不是全局相似性。

等距特征映射

Isomap使用所有數(shù)據(jù)點對之間的測地距離（沿流形的距離）。對輸入空間中靠近的鄰近點，可以使用歐氏距離。對距離遠的點，用沿流形的各點之間的距離和來近似。

視兩個點 r 和 s 是連接的，如果 $\|\mathbf{x}^r-\mathbf{x}^s\|<\varepsilon$ 或 s 是 r 的n個最近鄰之一，則其rs邊長是 $\|\mathbf{x}^r-\mathbf{x}^s\|$ 。對任意兩個節(jié)點 r 和s， $d_{rs}$ 是它們之間最短路徑的長度。然后在 $d_{rs}$ 可上應用MDS。

與使用MDS一樣，由于使用了線性嵌入來將N個數(shù)據(jù)放到一個低維空間，所以沒有學習一個從原空間到低維空間的映射函數(shù)。

局部線性嵌入

局部線性嵌入（LLE）從局部線性擬合來發(fā)現(xiàn)全局非線性結構。其基本思想是，流形的每個局部可以線性地近似。每個點可通過其鄰近點的線性加權和給出。

原數(shù)據(jù) $\mathbf{x}^r$ 和它的近鄰 $\mathbf{x}_r^s$ 可使用最小二乘法找到重構權重 $W_{rs}$ 。其最小化誤差 $E(W|X)=\sum_r\|\mathbf{x}^r-\sum_sW_{rs}x_r^s\|^2$ ，

且滿足 $\forall r,W_{rr}=0,\sum_sW_{rs}=1$ 。

LLE試圖用重構權重 $W_{rs}$ 反應數(shù)據(jù)的固有幾何性質，期望這種性質在映射后的新空間中也能保持。因此，LLE方法下一步保持 $W_{rs}$ 固定，來取新坐標 z 的值。

$E(Z|W)=\sum_r\|\mathbf{z}^r-\sum_sW_{rs}\mathbf{z}^s\|^2$

與Isomap一樣，LLE的解是N個點的新坐標，不學習映射。對此有兩種解決方案：

1、使用相同的思想，對新元素 $x^{\prime}$ ，在原始 d 維空間中找出 $x^{\prime}$ 的n個近鄰（原數(shù)據(jù)集中的實例，已映射到新空間），并且首先學習最小化 $E^{\omega}(\omega|X)=\|\mathbf{x}^{\prime}-\sum_s\omega_s\mathbf{x}^s \|^2$ 的重構權重 $\omega_j$ 。然后使用它們在新的k維空間中重構 $\mathbf{z}^{\prime}=\sum_s\omega_s\mathbf{z}^{s}$ 。

2、使用映射后的結果 $X=\left\{ \mathbf{x}^t,\mathbf{z}^t \right\}_{t=1}^N$ 作為訓練集，可訓練任意回歸器 $g(\mathbf{x}^t|\theta)$ 。例如多層感知器，作為從 $\mathbf{x}^t$ 到 $\mathbf{z}^t$ 映射的近似。

Isomap和LLE中，全局非線性組織通過整合部分重疊的局部線性約束而得到。

拉普拉斯特征映射

考慮數(shù)據(jù)實例 $\mathbf{x}^r \in R^d(r=1,\cdots,N)$ 和它們的投影 $\mathbf{z}^r \in R^k$ 。假定實例點對之間相似度為 $B_{rs}$ ， $B_{rs}$ 可在原始空間中計算。r和s相等時取最大值，并且它是對稱的 $B_{rs}=B_{sr}$ 。

這里的目標函數(shù)是 $\min \sum_{r,s}\|\mathbf{z}^r-\mathbf{z}^s\|^2B_{rs}$ ，意義在于相似的實例應該放在新空間中的鄰近位置，而不相似的實例在新空間中的位置相對不關心。

計算 $B_{rs}$ ，MDS方法中使用點積 $B_{rs}=(\mathbf{x}^r)^T\mathbf{x}^s$ 。但在拉普拉斯特征映射中，同Isomap和LLE一樣，只關注局部相似性。通過r 和s 之間的某個最大 $\varepsilon$ 距離，或者通過k最近鄰來定義鄰域，鄰域之外，設置 $B_{rs}=0$ 。鄰域之內，對于用戶指定的某個 $\sigma$ 值，使用高斯核把歐氏距離轉換為相似度：

$B_{rs}=\exp \left[ \frac{\|\mathbf{x}^r-\mathbf{x}^s\|^2}{2\sigma^2}\right]$

定義了 $B_{rs}$ 后，最小化目標函數(shù)

$\begin{align} &\min \sum_{r,s}\|\mathbf{z}^r-\mathbf{z}^s \|^2B_{rs}\\ &\min \sum_{r,s}\sum_{k}(z_k^r-z_k^s)^2B_{rs}\\ &\min \sum_k(\sum_{r,s}B_{rs}(z_k^r)^2-2\sum_{r,s}B_{rs}z_k^rz_k^s+\sum_sB_{rs}(z_k^s)^2)\\ &\min \sum_k2(\sum_{r,s}B_{rs}(z_k^r)^2-\sum_{r,s}B_{rs}z_k^rz_k^s) \end{align}$

簡寫為 $\min \mathbf{z}^TD\mathbf{z}-\mathbf{z}^TB\mathbf{z}$ ，其中D是 $\sum_sB_{rs}$ 的 $N\times N$ 對角矩陣，B是 $B_{rs}$ 構成的 $N \times N$ 矩陣。

定義圖拉普拉斯（graph Laplacian） $L=D-B$ 。目標最小化 $\mathbf{z}^TL\mathbf{z}$ 。約束 $\|\mathbf{z}\|=1$ 。與特征嵌入一樣，得到新空間中的坐標 z。其解是L的特征向量，又因為我們要最小化 $\mathbf{z}^TL\mathbf{z}$ ，所以選則最小特征值的特征向量作為解（注意忽略0特征值）。

拉普拉斯特征映射是一種特征嵌入方法。也就是直接在新空間中得到坐標，而沒有可用于新實例的映射模型。

拉普拉斯特征映射使用特征嵌入的思想，并保持逐對相似性。相同的思想也用于核機器，核機器中逐對相似性由核函數(shù)給出。

對特征提取和決策之間，如果特征提取過程做的很好，則分類或回歸算法任務就會容易很多。

核維度規(guī)約

核機器的運用，將非線性空間的問題變?yōu)樾碌木€性空間上的問題。具體對核方法的介紹見《支持向量機與核機器》一節(jié)。

對于維度規(guī)約方法，也可以運用核方法。對于處理線性子空間的方法，不能直接運用在流形問題上。核版本的方法可以解決這個問題，核機器內在地將原問題映射到新的線性子空間中，再在線空間上采用線性方法。核PCA使用核矩陣的特征向量核特征值，這對應于在基函數(shù)映射后的 $\Phi(\mathbf{x})$ 的空間上做線性維度規(guī)約。而在MDS中，核值則作為相似度值。`

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

維度規(guī)約（特征的提取和組合）

維度規(guī)約（特征的提取和組合）

線性空間中的降維

主成分分析

因子分析

特征嵌入

多維定位

線性判別分析

流形學習

等距特征映射

局部線性嵌入

拉普拉斯特征映射

核維度規(guī)約

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

維度規(guī)約（特征的提取和組合）

線性空間中的降維

主成分分析

因子分析

特征嵌入

多維定位

線性判別分析

流形學習

等距特征映射

局部線性嵌入

拉普拉斯特征映射

核維度規(guī)約

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av