Identification of cell types from single cell data using stable clustering
https://doi.org/10.1038/s41598-020-66848-3
- 一句話概括:
- 本文發(fā)明了一種新的clustering的pipeline來對單細胞數(shù)據(jù)進行聚類,通過比較發(fā)現(xiàn)這種聚類方式比之前常用的幾種聚類方式比如SC3、SEURAT等都要穩(wěn)定,其聚類效果也更接近實際細胞分類
1.Pipeline原理和算法介紹
*文章中描述的新的pipeline的workflow
workflow.png
1.1 Input&Gene filtering (A)
- Input : 輸入的數(shù)據(jù)結(jié)構(gòu)為單細胞的基因表達矩陣,行為基因,列為細胞
- Gene filtering : 去除掉在所有細胞中都沒有表達的基因
- 輸出 : 仍然為單細胞的基因表達矩陣,行為基因,列為細胞,此輸出將作為下一步的輸入
1.2 Measuring the dissimilarity between the cells (B)
- 計算細胞之間的不相似性(相似性),其實就是計算所有細胞之間的歐式距離;得到的矩陣行為細胞,列也為細胞,其中的元素為細胞之間的歐式距離
- 輸入 : 上一步得到的基因表達矩陣
- 算法 : Euclidean Metric/Euclidean Distance (歐幾里得度量/歐幾里得距離),具體算法見文末
- 輸出 : 輸出為行為細胞列為細胞的矩陣,其中的元素是細胞之間的歐式距離
1.3 Clustering (C)
- 此步的目的是對以上得到的細胞間歐式距離的矩陣進行降維,并找到對于此數(shù)據(jù)集最佳的聚類個數(shù)(K)
- 過程
- 將以上的歐式距離矩陣進行t-SNE降維,得到一個 細胞數(shù)X2 的矩陣,這個過程重復(fù)50次,以下步驟(2,3,4)是對于每一次的結(jié)果而言
- 對得到的降維矩陣進行K-means聚類,其中K的范圍為2到20;即進行19次聚類,其中參數(shù)K分別為2到20
- 以上得到的19次聚類結(jié)果,分別計算其Average silhouette值
- 在以上19個Average silhouette值中選出最大值,并得到這個最大值對應(yīng)的K值
由于以上步驟(2,3,4)一共進行了50次,故得到50個K值,取這50個K值的平均值,并對其進行四舍五入,得到的數(shù)值即為以下使用的最佳K值
Clustering.png
- 輸入 : 細胞間歐式距離矩陣
- 算法 : t-SNE,K-means,Average silhouette method
- 輸出 : 最佳K值;t-SNE降維結(jié)果(細胞數(shù)X2矩陣),具體選取哪次的結(jié)果文中未提及,推測可以選取任意一次的結(jié)果
1.4 Identifying the most stable clustering (D)
- 用以上的到的K值和t-SNE降維矩陣進行聚類,得到最穩(wěn)定的聚類結(jié)果
- 輸入 : 上一步得到的最佳K值和t-SNE降維矩陣
- 算法 : K-means,Jaccard coefficient
- 過程
- 用以上的到的K值和t-SNE降維矩陣進行n次K-means聚類,以下步驟(2,3,4)都是針對其中的每次聚類而言的
- 對t-SNE矩陣進行m次重新取樣,具體方式為去掉其中5%的樣本并用噪聲數(shù)據(jù)點代替
- 對以上的到的m個新的t-SNE降維矩陣分別進行K-means聚類,共得到m個新的聚類,每個聚類中有k個cluster
- 4.1 計算原始聚類中每個cluster的Stability score;用原始聚類中的一個cluster與m個新聚類中的每一個進行如下計算:此cluster與某個新聚類結(jié)果中的每一個cluster做Jaccard coefficient計算,取其中的最大值;此最大值便為此cluster與此新聚類結(jié)果中最相似cluster的相似度;如果此Jaccard coefficient >= 0.75,則說此原始cluster在此次比對中是穩(wěn)定的
- 4.2 計算原始聚類中每個cluster的Stability score;對于原始聚類中的每一個cluster,以上Jaccard coefficient計算一共計算m次,假設(shè)其中穩(wěn)定的比對為q次,則說此原始聚類中此cluster的Stability score為q/m
- 4.3 計算原始聚類的總體Stability score;原始聚類的Stability score等于此聚類中所有cluster的Stability score的平均數(shù)
按上述步驟(2,3,4)一共得到n個原始聚類的總體Stability score,選擇總體Stability score最高的那個聚類作為最終的最穩(wěn)定聚類
1-5.png
4.png



