為何選擇COSG
對(duì)于單細(xì)胞數(shù)據(jù)的分析,細(xì)胞類(lèi)型注釋永遠(yuǎn)都是重中之重,細(xì)胞注釋不對(duì),那一切等于白費(fèi)。近些年,眾多生物信息工作者著重開(kāi)發(fā)單細(xì)胞細(xì)胞類(lèi)型注釋的工具,但想要精準(zhǔn)識(shí)別細(xì)胞類(lèi)型仍然是相當(dāng)困難的。今天Immugent就來(lái)給大家介紹一款新的非常輕便的細(xì)胞注釋軟件:COSG工具,是于2022年3月在線(xiàn)發(fā)表于 Brief Bioinformatics :Accurate and fast cell marker gene identification with COSG這篇文章上,COSG有Python和R版本,這意味著無(wú)論是 Seurat 還是 Scanpy 使用者都可以使用這個(gè)工具。小編感嘆!!!

為何細(xì)胞類(lèi)型注釋困難?
目前各種單細(xì)胞技術(shù)的廣泛應(yīng)用,讓精準(zhǔn)去分細(xì)胞類(lèi)型顯得尤為重要。常規(guī)細(xì)胞注釋使用細(xì)胞標(biāo)記基因鑒定的常用方法通常依賴(lài)于統(tǒng)計(jì)檢驗(yàn)來(lái)尋找在數(shù)據(jù)集中感興趣的細(xì)胞和所有其他細(xì)胞之間有差異表達(dá)的基因。然而,由于統(tǒng)計(jì)檢驗(yàn)傾向于識(shí)別兩組之間具有系統(tǒng)差異的候選基因,當(dāng)將一種類(lèi)型的細(xì)胞(靶細(xì)胞)與多種其他類(lèi)型的細(xì)胞(非靶細(xì)胞)進(jìn)行比較時(shí),通過(guò)統(tǒng)計(jì)方法選擇的頂級(jí)差異表達(dá)基因可能不是真正的細(xì)胞標(biāo)記物。而且在很多疾病狀態(tài)下,如腫瘤組織中,有很多的免疫細(xì)胞和基質(zhì)細(xì)胞類(lèi)型(如下圖),這對(duì)準(zhǔn)確的進(jìn)行細(xì)胞注釋無(wú)疑是巨大挑戰(zhàn)。

目前來(lái)說(shuō),我們大多數(shù)的單細(xì)胞分析方法(和Seurat和Scanpy)中尋找差異基因的方法都是基于統(tǒng)計(jì)方法計(jì)算歐氏距離的。因此我們?cè)谧黾?xì)胞注釋的時(shí)候經(jīng)常會(huì)發(fā)現(xiàn),差異基因并不能作為細(xì)胞的marker進(jìn)行細(xì)胞注釋?zhuān)榱私鉀Q上述統(tǒng)計(jì)方法帶來(lái)的問(wèn)題,就要來(lái)介紹介紹基于COSine相似性的標(biāo)記基因識(shí)別(COSG),這是一種以更準(zhǔn)確和更快的速度識(shí)別細(xì)胞標(biāo)記基因的方法。

為什么要叫COSG呢?
簡(jiǎn)單來(lái)說(shuō),COSG呢就是咱們數(shù)學(xué)里面經(jīng)常用到的COSine啦,那選擇COSine為什么適用于marker基因的識(shí)別呢?理論知識(shí)說(shuō)起來(lái)!余弦相似度利用向量空間中向量之間的夾角的余弦值來(lái)度量?jī)蓚€(gè)n維向量之間的關(guān)系。與測(cè)量?jī)蓚€(gè)向量之間位置差異的歐氏距離不同,余弦相似度比較兩個(gè)向量的方向,這意味著如果兩個(gè)基因具有相同的表達(dá)模式,但一組細(xì)胞之間的表達(dá)豐度尺度不同,余弦相似度分析認(rèn)為它們是等效的。余弦值不依賴(lài)于向量的模,在單細(xì)胞分析的背景下就是不依賴(lài)于基因的表達(dá)量,而依賴(lài)于基因的表達(dá)模式。因此,余弦相似性是與表達(dá)規(guī)模無(wú)關(guān)的,對(duì)于識(shí)別靶細(xì)胞中特異性表達(dá)的基因應(yīng)該更加敏感。說(shuō)完以后大部分人可能還是一臉懵。不過(guò)沒(méi)關(guān)系,了解一下,咱們會(huì)用也是可以的呀!
COSG工作原理

COSG旨在為預(yù)先分類(lèi)的細(xì)胞群識(shí)別適當(dāng)?shù)膍arker基因。COSG的輸入數(shù)據(jù)應(yīng)該首先通過(guò)其他方法進(jìn)行歸一化。歸一化后,COSG生成基因表達(dá)矩陣,進(jìn)行聚類(lèi)分群?;诂F(xiàn)有的分群情況,COSG首先對(duì)每個(gè)細(xì)胞類(lèi)群鑒定出一個(gè)marker gene,這個(gè)基因的表達(dá)特征是:只在目標(biāo)細(xì)胞類(lèi)群中表達(dá),且不在其它任何一個(gè)細(xì)胞類(lèi)群中有表達(dá),這個(gè)基因就是每個(gè)細(xì)胞類(lèi)群最理想的基因marker了。假設(shè)一共有k個(gè)細(xì)胞,那么每個(gè)基因的表達(dá)情況就是一個(gè)k維的向量(在每個(gè)細(xì)胞中的表達(dá)量作為一個(gè)維度),那么對(duì)于每個(gè)基因和每個(gè)細(xì)胞類(lèi)群,COSG會(huì)計(jì)算該基因在目標(biāo)細(xì)胞類(lèi)群中與該目標(biāo)類(lèi)群marker gene的表達(dá)向量之間的夾角;再計(jì)算該基因在其它細(xì)胞類(lèi)群中與其它細(xì)胞類(lèi)群的marker gene的表達(dá)向量之間的夾角。最終鑒定出來(lái)的目標(biāo)細(xì)胞類(lèi)群的基因marker應(yīng)該有如下特征:與目標(biāo)細(xì)胞類(lèi)群的marker gene表達(dá)向量之間的夾角越小越好(即有相似的表達(dá)模式)而與其它細(xì)胞類(lèi)群的marker gene表達(dá)向量之間的夾角越大越好(即有相反的表達(dá)模式)。接下來(lái)文章,將COSG在單細(xì)胞轉(zhuǎn)錄組等數(shù)據(jù)上進(jìn)行了驗(yàn)證,這部分大家可以參考一下原文進(jìn)行了解哦!
討論
余弦相似度的COSG算法,其核心思想是通過(guò)比較基因在n維細(xì)胞空間的向量夾角大小來(lái)描述基因在所有細(xì)胞中表達(dá)模式的相似性,具有更高的準(zhǔn)確性和更高的細(xì)胞類(lèi)型特異性,并且COSG可以作為一種跨不同數(shù)據(jù)模式的細(xì)胞標(biāo)記基因識(shí)別的通用方法,能應(yīng)用于大規(guī)模數(shù)據(jù)集,相比于其他現(xiàn)有方法在準(zhǔn)確性和計(jì)算效率上具有明顯優(yōu)勢(shì)。