MIA,多模態(tài)數(shù)據(jù)取交集方法,是針對Spot Cluster 水平上利用單細胞注釋信息來對ST-Spot聚類結(jié)果進行細胞類型注釋。

給定單細胞某個已知細胞類型和某個Spot的聚類編號,我們分別篩選各自的CellMarkers和SpotMarkers
Background定義為單細胞與ST數(shù)據(jù)共同表達的基因集,根據(jù)單細胞的CellMarkers可以將背景基因集分成兩塊區(qū)域,藍色和黃色部分
然后將ST的SpotMarkers分別與這兩個區(qū)域取交集
如果這個ST的SpotMarkers是隨機抽取的,那么落在這兩個區(qū)域的基因數(shù)應(yīng)該是符合一定的比例, 如果出現(xiàn)過度集中與藍色區(qū)域,則我們認為CellMarkers與SpotMarkers是顯著重疊的,那么我們可以得到這個SpotCluster屬于這個細胞類型的可能性越高。

其實這個就是超幾何分布模型,我們可以一個公式來計算顯著性P值,由于P值是0-1之間,很小的數(shù),我們可以取-log10,轉(zhuǎn)換為得分,此得分越高,注釋與這個細胞類型的可能性就越高。
很簡單,我們可以在R中的基本函數(shù)phyper中實現(xiàn),命令用黑色方框顯示。
i表示同時屬于scRNA的CellMarkers和ST的SpotMarkers
M表示scRNA的CellMarkers
大N表示scRNA和ST同時表達基因
小n表示ST的SpotMarkers
在這里我想說個題外話,這個模型簡單且非常實用, 在基因功能富積分析使用的模型就是這個,所以課后不妨大家多多了解下

最終我們得到SpotCluster的細胞類型預(yù)測結(jié)果文件,行為Cluster編號,其中括號內(nèi)的數(shù)字表示ST的SpotMarker數(shù),列為細胞類型
如果得分越高,這個SpotCluster屬于這個細胞類型的可能性就越高,我們可以看到Cluster3屬于Oligo的得分最高,因此屬于這個細胞類型的可能性就最高。

我們可以將上面的表格進行熱圖展示,行為Cluster,列為細胞類型,對細胞類型做了層級聚類
我們可以看到紅色方框內(nèi)是Cluster3對應(yīng)的Oligo細胞類型的數(shù)值,由于此值在Cluster3對應(yīng)的所有細胞類型最高,因此此Cluster被預(yù)測為Oligo細胞類型
我們也可以用?;鶊D展示Cluster與已知細胞類型對應(yīng)關(guān)系,比如Cluster3沿著這個弧線對應(yīng)到Oligo細胞類型。