維度規(guī)約(特征的提取和組合)

介紹
第一部分 參數(shù)方法——類密度模型參數(shù)估計
第二部分 監(jiān)督學習——分類(基于似然的方法)
第三部分 監(jiān)督學習——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計)
第四部分 監(jiān)督學習——回歸
第五部分 監(jiān)督學習——關聯(lián)規(guī)則
第六部分 維度規(guī)約(特征的提取和組合)
第七部分 半?yún)?shù)方法
第八部分 非監(jiān)督學習——聚類
第九部分 非參數(shù)方法——密度估計
第十部分 非參數(shù)方法——決策樹實現(xiàn)的判別式
第十一部分 多層感知器——非參數(shù)估計器
第十二部分 局部模型
第十三部分 支持向量機與核機器
第十四部分 隱馬爾科夫模型
第十五部分 參數(shù)的貝葉斯估計
第十六部分 集成學習——組合多學習器
第十七部分 增強學習
第十八部分 機器學習實驗
第十九部分 特征工程與數(shù)據(jù)預處理

任何分類和回歸方法的復雜度都依賴于輸入的數(shù)量。我們需要輸入數(shù)據(jù)含有可供決策的信息。理想情況下,不需要將特征選擇或特征提取作為一個單獨的過程。并且有效的方法,應該能夠利用任何必要的特征,并丟棄不相關的特征。

但將降維作為一個單獨的預處理步驟,有如下一些原因:

1、在大多數(shù)機器學習算法中,復雜度依賴于輸入的維度d及樣本規(guī)模N。為了減少存儲及計算時間,需要考慮降低維度。同時降低d也降低了檢驗算法的復雜度。

2、去除不必要的采集數(shù)據(jù),

3、更簡單的模型可以在小數(shù)據(jù)集上更魯棒。(《監(jiān)督學習——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計)》多元情況部分中,提到過高維輸入x可能存在奇異的協(xié)方差矩陣估計)

4、當數(shù)據(jù)可以用較少的特征解釋時,有利于理解數(shù)據(jù)背后的過程,并提取知識,利于解釋。



降低維度主要有兩類方法:特征選擇、特征提取。

特征選擇——從d個維中找到 提供最多信息的k個維度,丟棄其他(d-k)個維度的數(shù)據(jù)。

特征提取——找到k個維度的新集合,這k個維度是原來d個維度的組合。這些方法可以是監(jiān)督的或者非監(jiān)督的。如同為線性投影方法主成分分析(PCA)線性判別分析(LDA)分別是非監(jiān)督的和監(jiān)督的。線性維度歸約以外,還有非線性維度歸約方法,如等距特征映射(Isomap)、局部線性嵌入(LLE)、拉普拉斯特征映射。

線性空間中的降維

主成分分析

1、主成分計算

在投影方法中,我們要找到的是從原d維輸入空間到新的k(k<d)維空間的、具有最小信息損失的映射。

x在方向\omega 上的投影為z=\omega^T \mathbf{x}。

PCA是一種非監(jiān)督方法,其最大化的準則是方差,主成分是這樣的\omega _1,樣本投影在\omega _1上后最分散。同時為了保證解唯一,要求\|\omega_1\|=1

如果z_1=\omega_1^T \mathbf{x}Cov(\mathbf{x})=\Sigma,則Var(z_1)=\omega_1^T\Sigma\omega_1。尋找\omega_1使得Var(z_1)在約束\omega_1^T\omega_1=1下最大化。寫成拉格朗日問題,有:

\max_{\omega_1}\omega_1^T\Sigma\omega_1-\alpha(\omega_1^T\omega_1-1)

關于\omega_1求導并令它等于0,有2\Sigma\omega_1-2\alpha\omega_1=0,也就是\Sigma\omega_1=\alpha\omega_1。\omega_1\Sigma的特征向量,\alpha是對應的特征值。因為我們想最大化方差\omega_1^T\Sigma\omega_1=\alpha\omega_1^T\omega_1=\alpha,特征值就等于方差,所以選擇最大化特征值的特征向量。

因此,主成分是輸入樣本協(xié)方差矩陣的具有最大特征值的特征向量。

第二個主成分\omega_2也應該最大化方差Var(z_2),具有單位長度,并且與\omega _1正交(也就是與\omega_1不相關)。則對第二個主成分有:

\max_{\omega_2}\omega_2^T\Sigma\omega_2-\alpha(\omega_2^T\omega_2-1)-\beta(\omega_2^T\omega_1-0)

關于\omega_2求導并令它等于0,有2\Sigma\omega_2-2\alpha\omega_2-\beta\omega_1=0。左乘\omega_1^T,得2\omega_1^T\Sigma\omega_2-2\alpha\omega_1^T\omega_2-\beta\omega_1^T\omega_1=0。

其中\omega_1^T\Sigma\omega_2=\omega_2^T\Sigma\omega_1=\lambda_1\omega_2^T\omega_1=0。

于是得\beta=0\Sigma\omega_2=\alpha\omega_2。表明\omega _2\Sigma得具有第二大特征值的特征向量。類似地,其他維可由遞減特征值的特征向量給出。并且,因為\Sigma是對稱的,所以對于任意兩個不同的特征值,對應的特征向量是正交的。

最后有降維后的數(shù)據(jù)\mathbf{z}=\mathbf{W}^T(\mathbf{x}-\mathbf{m}),其中W的k列是\Sigma 的估計S的k個主特征向量。投影前從 x 中減去樣本均值 m ,將數(shù)據(jù)原點中心化。

等同地,我們想找到一個矩陣W,使得\mathbf{z}=\mathbf{W}^T\mathbf{x}(不失一般性,x已經(jīng)中心化),Cov(\mathbf{z})=\mathbf{D}=\mathbf{W}^TS\mathbf{W},其中D是對角矩陣,既我們希望得到不相關的z_i。令S是D的估計,d\times d矩陣C的第 i 列是S的規(guī)范化特征向量c_i,則C^TC=I。且有

\begin{align}S&=SCC^T\\&=S(\mathbf{c_1},\mathbf{c_2},\cdots,\mathbf{c_d})C^T\\&=(\lambda_1\mathbf{c_1},\lambda_2\mathbf{c_2},\cdots,\lambda_d\mathbf{c_d})C^T\\&=\lambda_1\mathbf{c_1}\mathbf{c_1^T}+\cdots+\lambda_d\mathbf{c_d}\mathbf{c_d^T}\\&=CDC^T\end{align}

其中D是對角矩陣,對角元素是特征值\lambda_i。這稱為S的譜分解。C是正交的,有C^TSC=D。所以可以令\mathbf{W}=C,Cov(\mathbf{z})是對角矩陣。

2、 選取主成分

得到了各主成分\omega _i,根據(jù)特征值大小,可統(tǒng)計方差比例\frac{\lambda_1,+\cdots+\lambda_k}{\lambda_1,+\cdots+\lambda_k+\cdots+\lambda_d},取貢獻了一定比例以上的前k個主成分?;蚩赏ㄟ^忽略小于平均輸入方差的特征值對應的特征向量,來得到k個主成分。

PCA解釋方差,但對離群點很敏感。少量離群點會明顯影響方差,從而對特征向量產(chǎn)生很大影響。一般會通過計算數(shù)據(jù)點的馬氏距離,丟棄孤立的離群點,保證估計的魯棒性。


因子分析

因子分析(FA)同PCA一樣時非監(jiān)督的。假設存在不可觀測的潛在因子集合z_j,j=1,\cdots,k,它們組合成樣本實例\mathbf{x}。與PCA方法相反,F(xiàn)A的目的時通過較少的因子 z 刻畫觀測變量 x 之間的依賴性。也就是相較于PCA的\mathbf{z}=\mathbf{W}^T\mathbf{x},F(xiàn)A試圖找到 z 使得其構成 x :\mathbf{x}=V^T\mathbf{z}。

在PCA中,挑選大特征值的特征向量構成W,損失了沒有被選中的特征值對應的方差。但FA雖也在一個更小的維空間重構數(shù)據(jù),但沒有丟失信息。


特征嵌入

X是N\times d的樣本數(shù)據(jù)矩陣,協(xié)方差矩陣是d\times d的。如果X已中心化,具有零均值,則協(xié)方差矩陣等于X^TX。PCA使用X^TX的特征向量,譜分解是X^TX=CDC^T,C的各列是X^TX的特征向量,D是對應特征值構成的d \times d對角矩陣。

如果我們想將維度歸約到k<d,在PCA中,假定W中的特征向量按特征值大小排序,取W的前k列(X^TX具有最大特征值的k個特征向量),我們記這些特征向量為\omega _i,對應特征值為\lambda_i。從原始輸入空間映射到新的k維空間:

z_i^t=\mathbf{\omega}_i^T\mathbf{x}^t,i=1,\cdots ,k;t=1,\cdots,N

對任意i\leq k,有

\begin{align}(X^TX)\omega_i&=\lambda_i\omega_i\\(XX^T)X\omega_i&=\lambda_iX\omega_i\end{align}

因此,X\omega_iXX^T的具有特征值\lambda_i的特征向量。注意,X^TXd \times d的,而XX^TN \times N的。

其譜分解為XX^T=VEV^T,其中VN \times N的,V的列是XX^T的特征向量v_i=X\omega_i / \sqrt{\lambda_i}(單位化后的),E是對應特征值構成的對角矩陣。XX^T的N維特征向量是新的特征嵌入(FE)空間的坐標。

求得了v_i,可直接得到X\omega_i(PCA所做的):z_i^t=V_{ti}\sqrt{E_{tt}}

通常d<N,這是使用PCA來計算X^TX更簡單。而有時d>N,則計算XX^T容易一些。

對于PCA,得到的是投影向量,可通過取x與特征向量的點積,將任意一個x投影到新的k維空間。但線性嵌入沒有學習得到投影映射的模型,每當有一個新的數(shù)據(jù)加入,都需要重新進行計算。


多維定位

假設N個點,知道每對點間距離d_{ij}(不需知道這些點的坐標,維度,也不必知道如何計算這些距離)。多維定位(MDS)是把這些點映射到低維空間的方法,使它們在低維空間重得歐式距離 盡可能接近原始空間中的給定距離d_{ij}。

可以使用MDS進行維度歸約,通過d維 x 空間的逐對歐氏距離,將距離作為MDS的輸入。如有樣本X=\{\mathbf{x}^t \}_{t=1}^N,其中\mathbf{x}^t\in \mathbf{R}^d,在運用MDS方法時,不需知道 x 的具體坐標。對每兩個點 r 和 s。它們之間的平方歐氏距離為

d_{rs}^2=\|\mathbf{x}^r-\mathbf{x}^s\|^2=\sum_{j=1}^d(x_j^r)^2+\sum_{j=1}^dx_j^rx_j^s+\sum_{j=1}^d(x_j^s)^2=b_{rr}+b_{ss}-2b_{rs},其中b_{rs}=\sum_{j=1}^dx_j^rx_j^s。

將數(shù)據(jù)中心化并假定 \sum_{r=1}^Nx_j^r=0,\forall j=1,\cdots,d。由此有\sum_{r=1}^Nb_{rs}=\sum_{j=1}^d\sum_{r=1}^Nx_j^rx_j^s=0。

并記T=\sum_{t=1}^Nb_{tt},得到

\begin{align}\sum_rd_{rs}^2&=\sum_r(b_{rr}+b_{ss}-2b_{rs})\\&=T+Nb_{ss}\\\end{align}

由上述各等式可得:

\begin{align} b_{rs}&=\frac{1}{2} (d_{rs}^2-b_{rr}-b_{ss}) \\ &=\frac{1}{2} (d_{rs}^2-\frac{1}{N} (\sum_id_{is}^2-T)- \frac{1}{N} (\sum_id_{ri}^2-T)) \\ \end{align}

故通過已知的d_{rs},計算得到了b_{rs}=\sum_{j=1}^dx_j^rx_j^s,也就是得到了B=XX^T。也就是線性嵌入的結果。通過B的特征向量得到各實例在新空間中的坐標。

PCA、FA與MDS做了同樣的事情,當d<N時,PCA代價更低。在相關性矩陣上而不是協(xié)方差矩陣上做PCA等價于用標準歐氏距離來做MDS,其中每個變量都有單位方差。而MDS

上面介紹的MDS用線性映射的方法,將原空間上的數(shù)據(jù),線性地映射到新空間:\mathbf{z}=g(\mathbf{x}|W)=W^T\mathbf{x}

MDS中也可以使用非線性的映射,這被稱為Sammon映射。映射中的標準化誤差稱為Sammon應力:

\begin{align} E(\theta |X)&=\sum_{r,s}\frac{(\|\mathbf{z}^r-\mathbf{z}^s\|-\|\mathbf{x}^r-\mathbf{x}^s\|)^2}{\|\mathbf{x}^r-\mathbf{x}^s\|^2}\\ &=\sum_{r,s}\frac{(\|g(\mathbf{x}^r|\theta)-g(\mathbf{x}^s|\theta)\|-\|\mathbf{x}^r-\mathbf{x}^s\|)^2}{\|\mathbf{x}^r-\mathbf{x}^s\|^2} \end{align}

可對g使用任何回歸方法,訓練\theta最小化訓練數(shù)據(jù) X 上的Sammon應力。

對于分類的情況,可在距離的定義中包含類信息,如d^{\prime}_{rs}=(1-\alpha)d_{rs}+\alpha c_{rs},其中c_{rs}是r和s所屬類之間的距離。應該主觀地提供這個類間距離,\alpha 用交叉驗證優(yōu)化。


線性判別分析

線性判別分析(LDA)是一種用于分類問題的維度歸約的監(jiān)督方法。

兩類問題,考慮兩個類C_1,C_2的樣本,希望找到由向量\omega定義的方向,使得當數(shù)據(jù)投影到\omega上時,來自兩個類的樣本盡可能分開。

z=\omega^Txx\omega上的投影。\mathbf{m}_1m_1C_1類樣本在投影前和投影后的均值。注意這里\mathbf{m}_1\in R^d,而m_1\in R。設樣本X=\{\mathbf{x}^t,r^t \},對\mathbf{x}^t\in C_1r^t=1,\mathbf{x}^t\in C_2r^t=0。

m_1=\frac{\sum_t\omega^T\mathbf{x}^tr^t}{\sum_tr^t} =\omega^T\mathbf{m}_1,m_2=\frac{\sum_t\omega^T\mathbf{x}^t(1-r^t)}{\sum_t(1-r^t)} =\omega^T\mathbf{m}_2

來自兩個類的樣本投影后在均值周圍的散布是

s_1=\sum_t(\omega^T\mathbf{x}^t-m_1)^2r^t,s_2=\sum_t(\omega^T\mathbf{x}^t-m_2)^2(1-r^t)

投影后,為了使各類盡可能地分開,則希望均值金盡可能遠離,并且類實例散布在盡可能小的范圍里。既,|m_1-m_2|大,s_1^2+s_2^2小。費希爾線性判別式是這樣的\omega ,最大化J(\omega)=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}。其中

\begin{align} (m_1-m_2)^2&=(\omega^T\mathbf{m}_1-\omega^T\mathbf{m}_2)^2\\&=\omega^T(\mathbf{m}_1-\mathbf{m}_2)(\mathbf{m}_1-\mathbf{m}_2)\omega\\&=\omega^TS_B\omega \end{align}

\begin{align} s_1^2+s_2^2&=\sum_t[(\omega^T\mathbf{x}^t-m_1)r^t+(\omega^T\mathbf{x}^t-m_2)(1-r^t)] \\ &=\sum_t[\omega^T(\mathbf{x}^t-\mathbf{m}_1)(\mathbf{x}^t-\mathbf{m}_1)^T\omega r^t+\omega^T(\mathbf{x}^t-\mathbf{m}_2)(\mathbf{x}^t-\mathbf{m}_2)^T\omega (1-r^t)] \\ &=\omega^TS_W\omega \end{align}

其中S_B=(\mathbf{m}_1-\mathbf{m}_2)(\mathbf{m}_1-\mathbf{m}_2)^T是類間散度矩陣,S_W是類內散布的和。從而

J(\omega)=\frac{\omega^TS_B\omega}{\omega^TS_W\omega}=\frac{|\omega^T(\mathbf{m}_1-\mathbf{m}_2)^2|}{\omega^TS_W\omega},關于\omegaJ的導數(shù),并令其為0,得

\frac{\omega^T(\mathbf{m}_1-\mathbf{m}_2)}{\omega^TS_W\omega} \left(2(\mathbf{m}_1-\mathbf{m_2}-\frac{\omega^T(\mathbf{m}_1-\mathbf{m}_2)}{\omega^TS_W\omega}S_W\omega) \right)=0

其中\frac{(\mathbf{m}_1-\mathbf{m}_2)}{\omega^TS_W\omega}是常數(shù),有\omega=cS_W^{-1}(\mathbf{m}_1-\mathbf{m}_2),c是常數(shù)。這里關注的是\omega 的方向,故c取1。

對于K>2個類,我們希望找到矩陣W,使得z=W^T\mathbf{x},其中z是k維的,矩陣W是d \times k矩陣。C_i的類內散布矩陣是

S_i=\sum_ir_i^t(\mathbf{x}^t-\mathbf{m}_i)(\mathbf{x}^t-\mathbf{m}_i)^T,其中對\mathbf{x}^t\in C_ir_i^t=1,否則為0。

總的類內散布矩陣是S_W=\sum_{i=1}^KS_i

類間散布矩陣是S_B=\sum_{i=1}^KN_i(\mathbf{m}_i-\mathbf{m})(\mathbf{m}_i-\mathbf{m})^T,其中N_i=\sum_tr_i^t,\mathbf{m}=\frac1K\sum_{i=1}^K\mathbf{m}_i。

投影后類間散布矩陣為W^TS_BW,類內散布矩陣是W^TS_WW,都是k\times k矩陣。

同樣地,我們希望類間散布更大,類內散布更小,故最大化J(W)=\frac{|W^TS_BW|}{|W^TS_WW|},其解為\omega=S_W^{-1}S_B的最大的特征向量。注意,S_B是K個秩為1的矩陣(\mathbf{m}_1-\mathbf{m})(\mathbf{m}_1-\mathbf{m}^T)的和,并且可知它們之中最多只有K-1個是獨立,因此S_B的秩最大只有K-1。同2類一樣,數(shù)據(jù)在\omega上的投影自然是降維的。

為了使用LDA,需要類內散布矩陣S_W可逆。如果不可逆,可先用PCA消除奇異性,在運用LDA。同時,應該確保PCA 沒有把維度降得太低,使得LDA沒有多少事可做。

相比于PCA只注重總體的方差,LDA的監(jiān)督性注重類間散布。


流形學習

前面所介紹的方法,都需要數(shù)據(jù)落在一個線性子空間中。但這一前提并不總是成立。等距特征映射(Isomap)與下面的局部線性嵌入和拉普拉斯特征映射,不同于上面的方法,考慮的是流形(mainfold)上的輸入數(shù)據(jù),且為非監(jiān)督方法。關注的局部數(shù)據(jù)的逐對距離,而不是全局相似性。

等距特征映射

Isomap使用所有數(shù)據(jù)點對之間的測地距離(沿流形的距離)。對輸入空間中靠近的鄰近點,可以使用歐氏距離。對距離遠的點,用沿流形的各點之間的距離和來近似。

視兩個點 r 和 s 是連接的,如果\|\mathbf{x}^r-\mathbf{x}^s\|<\varepsilon 或 s 是 r 的n個最近鄰之一,則其rs邊長是\|\mathbf{x}^r-\mathbf{x}^s\|。對任意兩個節(jié)點 r 和s,d_{rs}是它們之間最短路徑的長度。然后在d_{rs}可上應用MDS。

與使用MDS一樣,由于使用了線性嵌入來將N個數(shù)據(jù)放到一個低維空間,所以沒有學習一個從原空間到低維空間的映射函數(shù)。

局部線性嵌入

局部線性嵌入(LLE)從局部線性擬合來發(fā)現(xiàn)全局非線性結構。其基本思想是,流形的每個局部可以線性地近似。每個點可通過其鄰近點的線性加權和給出。

原數(shù)據(jù)\mathbf{x}^r和它的近鄰\mathbf{x}_r^s可使用最小二乘法找到重構權重W_{rs}。其最小化誤差E(W|X)=\sum_r\|\mathbf{x}^r-\sum_sW_{rs}x_r^s\|^2,

且滿足\forall r,W_{rr}=0,\sum_sW_{rs}=1。

LLE試圖用重構權重W_{rs}反應數(shù)據(jù)的固有幾何性質,期望這種性質在映射后的新空間中也能保持。因此,LLE方法下一步保持W_{rs}固定,來取新坐標 z 的值。

E(Z|W)=\sum_r\|\mathbf{z}^r-\sum_sW_{rs}\mathbf{z}^s\|^2

與Isomap一樣,LLE的解是N個點的新坐標,不學習映射。對此有兩種解決方案:

1、使用相同的思想,對新元素x^{\prime},在原始 d 維空間中找出x^{\prime}的n個近鄰(原數(shù)據(jù)集中的實例,已映射到新空間),并且首先學習最小化E^{\omega}(\omega|X)=\|\mathbf{x}^{\prime}-\sum_s\omega_s\mathbf{x}^s \|^2的重構權重\omega_j。然后使用它們在新的k維空間中重構\mathbf{z}^{\prime}=\sum_s\omega_s\mathbf{z}^{s}。

2、使用映射后的結果X=\left\{ \mathbf{x}^t,\mathbf{z}^t \right\}_{t=1}^N作為訓練集,可訓練任意回歸器g(\mathbf{x}^t|\theta)。例如多層感知器,作為從\mathbf{x}^t\mathbf{z}^t映射的近似。

Isomap和LLE中,全局非線性組織 通過整合部分重疊的局部線性約束而得到。

拉普拉斯特征映射

考慮數(shù)據(jù)實例\mathbf{x}^r \in R^d(r=1,\cdots,N)和它們的投影\mathbf{z}^r \in R^k。假定實例點對之間相似度為B_{rs},B_{rs}可在原始空間中計算。r和s相等時 取最大值,并且它是對稱的B_{rs}=B_{sr}

這里的目標函數(shù)是\min \sum_{r,s}\|\mathbf{z}^r-\mathbf{z}^s\|^2B_{rs},意義在于 相似的實例應該放在新空間中的鄰近位置,而不相似的實例在新空間中的位置相對不關心。

計算B_{rs},MDS方法中使用點積B_{rs}=(\mathbf{x}^r)^T\mathbf{x}^s。但在拉普拉斯特征映射中,同Isomap和LLE一樣,只關注局部相似性。通過r 和s 之間的某個最大\varepsilon距離,或者通過k最近鄰來定義鄰域,鄰域之外,設置B_{rs}=0。鄰域之內,對于用戶指定的某個\sigma值,使用高斯核把歐氏距離轉換為相似度:

B_{rs}=\exp \left[ \frac{\|\mathbf{x}^r-\mathbf{x}^s\|^2}{2\sigma^2}\right]

定義了B_{rs}后,最小化目標函數(shù)

\begin{align} &\min \sum_{r,s}\|\mathbf{z}^r-\mathbf{z}^s \|^2B_{rs}\\ &\min \sum_{r,s}\sum_{k}(z_k^r-z_k^s)^2B_{rs}\\ &\min \sum_k(\sum_{r,s}B_{rs}(z_k^r)^2-2\sum_{r,s}B_{rs}z_k^rz_k^s+\sum_sB_{rs}(z_k^s)^2)\\ &\min \sum_k2(\sum_{r,s}B_{rs}(z_k^r)^2-\sum_{r,s}B_{rs}z_k^rz_k^s) \end{align}

簡寫為\min \mathbf{z}^TD\mathbf{z}-\mathbf{z}^TB\mathbf{z},其中D是\sum_sB_{rs}N\times N對角矩陣,B是B_{rs}構成的N \times N矩陣。

定義 圖拉普拉斯(graph Laplacian)L=D-B。目標最小化\mathbf{z}^TL\mathbf{z}。約束\|\mathbf{z}\|=1。與特征嵌入一樣,得到新空間中的坐標 z。其解是L的特征向量,又因為我們要最小化\mathbf{z}^TL\mathbf{z},所以選則最小特征值的特征向量作為解(注意忽略0特征值)。

拉普拉斯特征映射是一種特征嵌入方法。也就是直接在新空間中得到坐標,而沒有可用于新實例的映射模型。

拉普拉斯特征映射使用特征嵌入的思想,并保持逐對相似性。相同的思想也用于核機器,核機器中逐對相似性由核函數(shù)給出。

對特征提取和決策之間,如果特征提取過程做的很好,則分類或回歸算法任務就會容易很多。


核維度規(guī)約

核機器的運用,將非線性空間的問題變?yōu)樾碌木€性空間上的問題。具體對核方法的介紹見《支持向量機與核機器》一節(jié)。

對于維度規(guī)約方法,也可以運用核方法。對于處理線性子空間的方法,不能直接運用在流形問題上。核版本的方法可以解決這個問題,核機器內在地將原問題映射到新的線性子空間中,再在線空間上采用線性方法。核PCA使用核矩陣的特征向量核特征值,這對應于在基函數(shù)映射后的\Phi(\mathbf{x})的空間上做線性維度規(guī)約。而在MDS中,核值則作為相似度值。`

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容