SpliZ/SpliZVD | 思路新奇的scRNA-seq可變剪切指標(biāo)

??基因的可變剪切造就了轉(zhuǎn)錄本的多樣性,作為一種常見的基因表達(dá)調(diào)控機(jī)制,對于生物體的生長、發(fā)育和適應(yīng)環(huán)境等方面都具有重要作用。前面寫過一篇關(guān)于bulk RNA-seq的推文,談過一點(diǎn)對可變剪切的感受,感興趣的可以戳這里:bulk RNA-seq還有必要做差異可變剪切分析么?

??既然,可變剪切這么重要,在單細(xì)胞領(lǐng)域當(dāng)然也是不可或缺的,所以針對單細(xì)胞也出現(xiàn)了不少的分析方法,這其中大部分方法的原理類似于bulk RNA-seq。但是,單細(xì)胞數(shù)據(jù)由于其測序方法的特殊性,為保證分析的質(zhì)量,在做可變剪切的時候就不得不考慮這些因素,其中最重要的兩個因素為數(shù)據(jù)的稀疏性、測序的不完整性(10x 3' gene expression)。

??單細(xì)胞數(shù)據(jù)的稀疏性是不可以回避的因素。針對這個問題,有的軟件直接采用合并數(shù)據(jù)的方法,先將數(shù)據(jù)分成不同的細(xì)胞亞群,然后將亞群內(nèi)的細(xì)胞數(shù)據(jù)合并視為bulk RNA-seq數(shù)據(jù),這樣便可以輕松解決稀疏性的問題。相同類型的細(xì)胞有著相似的基因表達(dá),而基因的不同轉(zhuǎn)錄本也正是可變剪接的結(jié)果,由此也有理由認(rèn)為相同細(xì)胞類型具有相似的可變剪切。所以,雖然合并數(shù)據(jù)的方式犧牲了數(shù)據(jù)的分辨率,但也不失為一種增加數(shù)據(jù)豐度的有效方法。

??單細(xì)胞測序數(shù)據(jù)的不完整性,例如10x 3'的捕獲方式獲取到的數(shù)據(jù)僅僅是轉(zhuǎn)錄本3'端的一小部分片段,這個問題是沒辦法像稀疏性那樣通過數(shù)據(jù)本身來解決。對于這樣的數(shù)據(jù),也有軟件還是采用類似bulk RNA-seq方式來做可變剪切,雖然不能說不對,但至少有失偏頗。

??既然,單細(xì)胞數(shù)據(jù)分析的障礙更多的是來自于技術(shù)的限制,分析方法建立在數(shù)據(jù)之上,如果數(shù)據(jù)本身不完整,也只能死馬當(dāng)活馬醫(yī),再好的方法也是治標(biāo)不治本,形容的更離譜一點(diǎn)就是:巧婦也難為無米之炊。所以,想要更好更系統(tǒng)的解決這些限制,只能期待未來技術(shù)的發(fā)展推動分析方法的迭代。好在當(dāng)下米雖然不多但至少還有一點(diǎn),所以,需要做的事就是尋找到適合現(xiàn)有食材的烹飪方法,從而利用現(xiàn)有的數(shù)據(jù)挖掘出有用的信息。

SpliZ

??目前,已有不少單細(xì)胞數(shù)據(jù)可變剪切相關(guān)的分析軟件,其中一款軟件的原理視角可謂是別出心裁,不管是從另辟蹊徑的切入角度還是從文章中不錯的效果來講,都給人一種有點(diǎn)意思的讀后感。利用一個Splicing Z-score作為基因可變剪切的整體分?jǐn)?shù),站在細(xì)胞群體的角度衡量剪切跨度的大小,從而評估不同細(xì)胞類型之間剪切發(fā)生的差異性。

上面的原理圖看著不復(fù)雜,理解起來還是有點(diǎn)不夠順暢,下面還原一下示意圖的計(jì)算過程:

  1. 計(jì)算剪切類型的均值和標(biāo)準(zhǔn)差
sj1rank <- (1+1)
sj2rank <- (2+2+1)
sj3rank <- (3+2)

sjmean <- (sj1rank + sj2rank + sj3rank)/12

sjsum <- (1-sjmean)^2 + (1-sjmean)^2 + (2-sjmean)^2 + (2-sjmean)^2 + (1-sjmean)^2 + (3-sjmean)^2 + (2-sjmean)^2
sjσ <- sqrt(sjsum/12)
sjσ
[1] 0.7637626
  1. 計(jì)算每種剪切類型的殘差
sj1rs <- (1-2)/0.7
sj1rs
[1] -1.428571

sj2rs <- (2-2)/0.7
sj2rs
[1] 0

sj3rs <- (3-2)/0.7
sj3rs
[1] 1.428571
  1. 計(jì)算細(xì)胞內(nèi)每個基因的剪切Z-score
cell1_gzs <- (-1.4*3 + 0*1)/4
cell1_gzs
[1] -1.05

cell2_gzs <- (-1.4*1 + 0*2 + 1.4*1)/4
cell2_gzs
[1] 0

cell3_gzs <- ( 0*1 + 1.4*3)/4
cell3_gzs
[1] 1.05

??經(jīng)過排序和計(jì)算,細(xì)胞中每個基因都被賦予了一個整體剪切的評估分?jǐn)?shù),分?jǐn)?shù)值的大小直接與剪切的跨度大小直接關(guān)聯(lián),值越小跨度越小,值越大跨度閱讀。當(dāng)然,具體的計(jì)算過程比這里展示的要復(fù)雜的多,比如剪切跨度考慮方式為3'5'兩種情況等。通過該分?jǐn)?shù)值便可以分析不同細(xì)胞類型之間的可變剪切差異。

??流程分析結(jié)束會得到一個表格,記錄了每個細(xì)胞中每個基因的SpliZ分?jǐn)?shù),即下面結(jié)果的中scZ

SpliZVD

??文章中還定義了另外一個值SpliZVD來衡量剪切的情況,即上面結(jié)果中的svd_z0 - svd_z2,分別對應(yīng)特征矩陣前三個向量計(jì)算的分?jǐn)?shù)值。從該分?jǐn)?shù)的名字可以看出與SpliZ有些關(guān)系,這也可以從文章給出的流程圖看出。

??雖然有關(guān)聯(lián),但不要被迷惑。這里的SpliZVD肯定不是由前面介紹的SpliZ直接計(jì)算而來,因?yàn)榍懊娴?code>SpliZ在計(jì)算過程中已經(jīng)丟失了剪切位點(diǎn)信息,而SpliZVD需要經(jīng)過奇異值分解來達(dá)到數(shù)據(jù)降維的效果。所以,這里應(yīng)該是采用類似SpliZ的計(jì)算過程,先是計(jì)算出每個基因所有剪切位點(diǎn)的評分值,也就是說上面的SpliZ分?jǐn)?shù)是基因水平,而這里的是位點(diǎn)水平。然后,采用奇異值分解的方法得到基因水平的SpliZVD分?jǐn)?shù)。相較于前面的SpliZ分?jǐn)?shù),SpliZVD不受read depth影響。并且,利用SpliZVD的計(jì)算也可以發(fā)現(xiàn)具有驅(qū)動作用的剪切位點(diǎn)。關(guān)于SpliZVD計(jì)算過程的理解本人也是一知半解,感興趣的可以直接看原文獻(xiàn):<The SpliZ generalizes 'percent spliced in' to reveal regulated splicing at single-cell resolution>。

??SpliZSpliZVD都是從基因水平的角度賦予剪切的整體打分,通過分?jǐn)?shù)的大小可以判斷不同細(xì)胞間剪切的區(qū)別,但這種視角僅是基因水平,也就是說僅僅知道細(xì)胞間某個基因剪切有差異,卻不知道具體由于何種剪切導(dǎo)致。思路很新奇,分辨率卻不足,沒有像bulk RNA-seq可變剪切那樣下沉到轉(zhuǎn)錄本水平。不過,SpliZSpliZVD并不受顯現(xiàn)于測序類型,不管是部分轉(zhuǎn)錄本還是全長轉(zhuǎn)錄本的數(shù)據(jù)類型都可以應(yīng)用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容