李宏毅機器學習(二十)無監(jiān)督學習Neighbor Embedding近鄰嵌入

Manifold Learning

我們有時候的特征其實是低維度的放到高緯度上去,比如地球表面是2維的,但是被放到了3維空間,比如左下的S曲面,其實可以展開到2維平面上去,接下來就方便我們進一步計算分類等等

插圖1

我們有如下幾個降維方法

Locally Linear Emedding(LLE)局部線性嵌入

具體是是怎么做的呢,我們點x和周圍的點xj,給xj每個點加權wij求和,使其和xi最接近,然后投影到向量zi,zj(已降維),使他們之間的關系系數(shù)還是wij。LLE我們并不一定明確其函數(shù)是如何實現(xiàn)降維。

插圖1

我們LLE就是找到維度低的zi,zj使得投影過去的線性表示zj和zi最接近

插圖2

LLE最K選幾有一定要求,K太小不好,K太大了沒有很近才分布到一起,最終的點還是沒有很好分類

插圖3

Laplacian Eigemmaps拉普拉斯特征圖

我們之前講過smoothness,2個點是否一類不是計算距離而是通過是否平滑連接到一起

插圖4

我們之前講半監(jiān)督學習的時候講過如果x1,x2在高密度區(qū)域連接,那他們很可能是有一個標簽,就有了平滑度的公式,等等

插圖5

我們同樣可以對無監(jiān)督學習采用smoothness公式,如果要求最小,但這有沒有問題呢?我們讓zi=zj=0不就都最小了嗎,所以無監(jiān)督學習我們還需要引入一些條件,如果z的維度是M維,我們希望取得N個點的空間是M維空間(即不希望N個點的空間比M維還?。S腥擞謺f我們半監(jiān)督學習并沒有這個要求啊,因為半監(jiān)督學習我們引入了損失函數(shù)和平滑函數(shù),不光由平滑函數(shù)自己決定。

我們把z求出來事實上和之前求L的特征向量一樣,只不過是特征值比較小的特征向量,我們得到這樣的向量再做聚類,就會叫做Spectral Clustering

插圖6

接下來我們講TSNE,我們之前的方法的確實現(xiàn)了將距離近的靠在了一起,但是并么有讓距離遠的分開,比如下圖左MNIST和下圖右COIL-20圖片,圖中的像8字的環(huán)形是圖片旋轉的效果。

插圖7

TSNE我們計算xi,xj的相似度后除以xi和空間所有其他點相似度的和,就得到了一般化的分布,我們同樣可以計算zi,zj我們就是需要他們的分布盡量一致,就需要梯度下降求,但是相似度計算量太大,我們往往開始需要先降維(比如PCA),然后再通過TSNE降維

插圖8

我們知道xi,xj的相似度公式S(x_{i} ,x_{j} )=exp(-\vert x_{i} -x_{j}  \vert ^2 ),如果是SNE,那z的相似度公式和x一致,但是TSNE采用了新的相似度公式S(z_{i} ,z_{j} )=1/(1+\vert z_{i} -z_{j}  \vert^2  )這樣有什么好處呢,我們看下圖,我們x有一定的差異時,反應在z上就能很大,所以采用新的相似度公式

插圖9

所以我們TSNE在MNIST和COIL-20就會有比較明顯的分類效果,COIL-20有的圈圈就是圖像不同旋轉方向的結果

插圖10
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容