Manifold Learning
我們有時候的特征其實是低維度的放到高緯度上去,比如地球表面是2維的,但是被放到了3維空間,比如左下的S曲面,其實可以展開到2維平面上去,接下來就方便我們進一步計算分類等等

我們有如下幾個降維方法
Locally Linear Emedding(LLE)局部線性嵌入
具體是是怎么做的呢,我們點x和周圍的點xj,給xj每個點加權wij求和,使其和xi最接近,然后投影到向量zi,zj(已降維),使他們之間的關系系數(shù)還是wij。LLE我們并不一定明確其函數(shù)是如何實現(xiàn)降維。

我們LLE就是找到維度低的zi,zj使得投影過去的線性表示zj和zi最接近

LLE最K選幾有一定要求,K太小不好,K太大了沒有很近才分布到一起,最終的點還是沒有很好分類

Laplacian Eigemmaps拉普拉斯特征圖
我們之前講過smoothness,2個點是否一類不是計算距離而是通過是否平滑連接到一起

我們之前講半監(jiān)督學習的時候講過如果x1,x2在高密度區(qū)域連接,那他們很可能是有一個標簽,就有了平滑度的公式,等等

我們同樣可以對無監(jiān)督學習采用smoothness公式,如果要求最小,但這有沒有問題呢?我們讓zi=zj=0不就都最小了嗎,所以無監(jiān)督學習我們還需要引入一些條件,如果z的維度是M維,我們希望取得N個點的空間是M維空間(即不希望N個點的空間比M維還?。S腥擞謺f我們半監(jiān)督學習并沒有這個要求啊,因為半監(jiān)督學習我們引入了損失函數(shù)和平滑函數(shù),不光由平滑函數(shù)自己決定。
我們把z求出來事實上和之前求L的特征向量一樣,只不過是特征值比較小的特征向量,我們得到這樣的向量再做聚類,就會叫做Spectral Clustering

接下來我們講TSNE,我們之前的方法的確實現(xiàn)了將距離近的靠在了一起,但是并么有讓距離遠的分開,比如下圖左MNIST和下圖右COIL-20圖片,圖中的像8字的環(huán)形是圖片旋轉的效果。

TSNE我們計算xi,xj的相似度后除以xi和空間所有其他點相似度的和,就得到了一般化的分布,我們同樣可以計算zi,zj我們就是需要他們的分布盡量一致,就需要梯度下降求,但是相似度計算量太大,我們往往開始需要先降維(比如PCA),然后再通過TSNE降維

我們知道xi,xj的相似度公式,如果是SNE,那z的相似度公式和x一致,但是TSNE采用了新的相似度公式
這樣有什么好處呢,我們看下圖,我們x有一定的差異時,反應在z上就能很大,所以采用新的相似度公式

所以我們TSNE在MNIST和COIL-20就會有比較明顯的分類效果,COIL-20有的圈圈就是圖像不同旋轉方向的結果
