在上篇棉花相關的單細胞帖子我提到過:
文中是這樣說的:Guided by the bulk samples of cotyledons (0, 12, 24, 36 and 48 h after seeds imbibition) in G. bickii with pigment gland density information, 45 Scissor+ cells and 57 Scissor? cells were selected in pigment gland cells, which were associated with the pigment gland density phenotypes.
我說了我沒怎么看懂是啥意思,通過參考文獻看到是通過Scisor來做的,所以今天我們也來學習一下這個工具到底是干什么用的。
Scissor發(fā)表在2022年Nature Biotechnology上,題為《Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data》。從題目來看,Scissor利用單細胞數(shù)據(jù)和bulk RNA-seq數(shù)據(jù)及表型信息識別與疾病高度相關的細胞亞群。

作者開發(fā)Scissor的目的是結合bulk-seq的數(shù)據(jù),尋找與某一性狀顯著相關的單細胞亞群,然后從表型的角度解釋這些細胞亞群的生物學意義。作者開發(fā)Scissor的動機是由于目前對細胞亞群的分群大多基于scRNA的表達量進行無監(jiān)督聚類,卻鮮有人從表型的角度解釋這些單細胞亞群。作者認為,相同的細胞亞群可能會導致相同表型的發(fā)生。
=========原理========
如下圖所示,作者需要的 input 文件有三種,單細胞數(shù)據(jù),表型數(shù)據(jù)(可以說離散型表型數(shù)據(jù),也可以是連續(xù)型表型數(shù)據(jù))和bulk-seq的表達矩陣。

第一步,軟件利用分位數(shù)回歸去除了bulk-seq和scRNA的批次效應;
第二步基于單細胞數(shù)據(jù)構建cell與cell間的similarity network(G);
第三步計算單細胞表達矩陣對bulk-seq表達矩陣的皮爾斯相關系數(shù),記作S={sij}n×m,n為sample的總數(shù)目,m為細胞的總數(shù)目;
第四步,利用相關性矩陣S作為決策變量,表型數(shù)據(jù)作為響應變量建立回歸關系,設回歸系數(shù)為β,在計算β的過程中將以及cell與cell間的similarity network(G)的部分信息(利用度矩陣和鄰接矩陣構建拉普拉斯矩陣)作為估計的正則項。
下面就是估計回歸系數(shù)β了,如下所示:(因為不是專業(yè)做統(tǒng)計這塊的,就略過了)

結論就是:計算出來的回歸系數(shù)為β越高代表某細胞亞群與某表型的相關性比較高,反之比較低。
其實,bulk-seq的sample數(shù)量與表型數(shù)據(jù)的數(shù)量是一致的。而決策變量Si表征每個細胞與sample i的相關性,相關性高即代表該細胞與該sample的表達模式相同,也就是sample i 中這個細胞的含量較多(該細胞含量多才會使得該細胞與該sample之間表達模式相同),因此可以等量代換為某個細胞的含量與表型之間的關系,因此β值為正且越大,則說明該細胞含量對表型影響呈正相關且影響大。反之β為負且越小,則說明該細胞含量對表型影響呈負相關且影響大。
因此,其中Scissor+ 表示所選擇的細胞與感興趣的表型呈正相關,Scissor-為負相關。表型信息可以是連續(xù)變量、二分向量或臨床生存數(shù)據(jù),會分別對應不同的回歸方法。
然后,作者分別在幾組不同屬性的數(shù)據(jù)上測試了Scissor的有效性。
例如:利用來自TCGA的肺腺癌(LUAD)腫瘤樣本和正常表型樣本,然后下載了471個bulk sample的數(shù)據(jù),研究團隊設計了一個基于樣本表型相關矩陣的回歸模型并整合了相似性網(wǎng)絡。通過優(yōu)化這個回歸模型,Scissor可以識別與目標表型最相關的細胞亞群。結果鑒定出來201個Scissor+的cell,和Scissor-的cell(下圖b)。其中這201個cell在cluster 1,2,3,11中最多(下圖c)。然后作者通過對比scissor+的cell和其它cell,鑒定了一些特異表達的基因,然后發(fā)現(xiàn)這些基因大多和hypoxia相關(下圖d,e)。富集結果也表明和hypoxia相關的pathway有關。結果顯示,Scissor能夠很好地區(qū)分腫瘤細胞和正常細胞,證明Scissor能夠在大量細胞表型數(shù)據(jù)信息的指導下,從單細胞數(shù)據(jù)中準確識別大多數(shù)表型相關細胞。

然后,作者又選取了6組公共的肺癌數(shù)據(jù)去查看這23個在scissor+cell中高表達基因的表達特征,發(fā)現(xiàn)了同樣的規(guī)律。所以double驗證了scissor結果的準確性。

隨后,研究人員對黑色素瘤scRNA序列數(shù)據(jù)以及70個bulk samples進行了Scissor操作,以確定與ICB反應相關的T細胞亞群。從下圖a-f和前面是一樣的結果和思路。因為這70個bulk sample有免疫反應的信息,所以作者查看了鑒定出來的cell在兩組不同免疫反應之間的差異。Scissor發(fā)現(xiàn)了一個與免疫治療反應正相關的低PDCD1/CTLA4和高TCF7表達的T細胞亞群,表明即使單細胞數(shù)據(jù)本身沒有相關表型信息,Scissor分析仍能識別與特定表型相關的細胞亞群。


除了癌癥腫瘤數(shù)據(jù),作者還測試了Scissor,發(fā)現(xiàn)對非腫瘤數(shù)據(jù)預測也具有很好的表現(xiàn)。
研究人員應用Scissor對阿爾茨海默癥(AD)scRNA-seq研究中的三種腦細胞類型,以及14個bulk samples(包含7個正常的,7個AD病人)進行了分析,確定了三種與AD高度相關的腦細胞亞群,對理解AD的潛在發(fā)病機制、疾病診斷和治療具有重要作用。

