10X單細(xì)胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析之轉(zhuǎn)錄因子的分析方法與解讀

作者,追風(fēng)少年i

最近呢,收到了很多粉絲的提問(wèn),其實(shí)關(guān)于多樣本通訊分析比較的內(nèi)容我已經(jīng)在單細(xì)胞個(gè)性化分析之多樣本細(xì)胞通訊比較篇一文中詳細(xì)說(shuō)明,還有一個(gè)提問(wèn)較多的問(wèn)題就是關(guān)于SCENIC的分析內(nèi)容解讀,聽(tīng)了很多客戶的意見(jiàn),我發(fā)現(xiàn)很多人都無(wú)法掌握SCENIC該如何運(yùn)用,分析完的結(jié)果也不知道有哪些用處,該如何解讀,其實(shí)關(guān)于SCENIC,我已經(jīng)寫(xiě)了一下代碼文,這一篇帶大家來(lái)進(jìn)行如何解讀和文章中的運(yùn)用。

首先思考一個(gè)問(wèn)題,直接拿注釋好的單細(xì)胞樣本分析SCENIC有意義嗎???免疫細(xì)胞和組織細(xì)胞比較分析的調(diào)節(jié)子能說(shuō)明什么???

10X單細(xì)胞(10X空間轉(zhuǎn)錄組)之基因網(wǎng)絡(luò)推斷方法之間的優(yōu)劣勢(shì)

10X單細(xì)胞數(shù)據(jù)分析轉(zhuǎn)錄因子的前世今生---scenic

10X單細(xì)胞(10X空間轉(zhuǎn)錄組)轉(zhuǎn)錄因子活性分析之DoRothEA

9月初人生迎來(lái)轉(zhuǎn)折,面臨重要選擇,當(dāng)斷不斷,必受其亂

首先我們先來(lái)看看TF調(diào)節(jié)靶基因的原理

圖片.png

原則上轉(zhuǎn)錄因子跟基因的開(kāi)放情況相關(guān),但一般我們只有單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)。

我們解讀一下原理

  • If only scRNA-seq data is available, then it is natural to identify such TFs by searching for TFs whose expression correlation with the differential TG is significantly different in the two linked subpopulations

  • first construct a numerical index to represent the regulatory potential of a TF on a TG. This index, which we call transcription factor regulatory potential (TFRP), is a cell-specific index defined as the product of the (cell-specific) expression of the TF and its regulatory potential on the TG, where the regulatory potential is calculated by integrating accessibility information from multiple REs that may mediate the activity of the TF to regulate the TG

TF調(diào)控基因的原理

TF對(duì)TG的差異調(diào)節(jié)可能是由于以下一種或兩種機(jī)制。

TFRP(調(diào)控潛能) 的變化:TF 在兩種條件下都調(diào)節(jié) TG,但兩種條件下的 TFRP 差異很大。這兩種情況是

  • 1> TF 表達(dá)量或 RE 可及性的變化會(huì)導(dǎo)致差異的 TFRP。

  • 2> 調(diào)控網(wǎng)絡(luò)結(jié)構(gòu)的變化:兩種條件下的TFRP相似, 但TF在一種條件下對(duì)TG進(jìn)行調(diào)控,而在另一種條件下不存在調(diào)控 .


    圖片.png

這表明我們可以通過(guò)測(cè)試這種條件分布的變化來(lái)檢測(cè)差異規(guī)則。

在這個(gè)基礎(chǔ)上,我們就來(lái)分析一下SCENIC這個(gè)軟件,這個(gè)軟件很多人都寫(xiě)了文章,無(wú)論是原理還是代碼,但是很多生信人員還是不太會(huì)使用

SCENIC是2017年11月發(fā)表在Nature Methods 期刊的一種單細(xì)胞轉(zhuǎn)錄因子分析方法,也是目前進(jìn)行單細(xì)胞轉(zhuǎn)錄因子分析的主流軟件,該軟件在進(jìn)行數(shù)據(jù)分析的同時(shí)也能得到可視化結(jié)果圖。另外,SCENIC是一款開(kāi)源軟件,可以免費(fèi)下載使用,目前軟件有R和python兩個(gè)版本,每個(gè)版本都配備了詳細(xì)的使用說(shuō)明(軟件官網(wǎng)https://scenic.aertslab.org/)。但有一點(diǎn)需要特別注意,該軟件是有物種限制的,目前只能分析人、小鼠和果蠅的數(shù)據(jù),具體限制原因,在后面的分析原理中揭曉~

SCENIC分析原理

在輸入單細(xì)胞基因表達(dá)量矩陣后,SCENIC經(jīng)過(guò)以下三個(gè)步驟完成轉(zhuǎn)錄因子分析:第一步是構(gòu)建共表達(dá)網(wǎng)絡(luò)、第二步是構(gòu)建TF-targets網(wǎng)絡(luò)、第三步是計(jì)算Regulons活性,每一個(gè)步驟都由一個(gè)專門的軟件包完成。我們來(lái)看一下各步驟詳解。

GENIE3——共表達(dá)網(wǎng)絡(luò)構(gòu)建

第一步由GENIE3或GRNBoost軟件完成,這里以GENIE3為例介紹。GENIE3 (GEne NetworkInference with Ensemble of trees) ,基于樹(shù)的基因網(wǎng)絡(luò)推理,是一種從基因表達(dá)數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò)的方法。軟件以單細(xì)胞基因表達(dá)量矩陣為輸入文件,以每個(gè)目標(biāo)基因 (gene) 為輸出,以轉(zhuǎn)錄因子 (TF) 為輸入,構(gòu)建P個(gè)隨機(jī)森林樹(shù)(P=矩陣中基因數(shù)量),并計(jì)算每個(gè)TF與gene之間的重要性評(píng)分 (IM) ,最終可以獲得TF-genes共表達(dá)模塊。最后刪除IM低于閾值的基因關(guān)系,過(guò)濾基因數(shù)低于50的模塊。如果覺(jué)得不太好理解,下圖也為大家做了簡(jiǎn)化~

GENIE3網(wǎng)絡(luò)構(gòu)建過(guò)程

RcisTarget——motif富集及靶基因預(yù)測(cè)

從第一步獲得了TF-genes共表達(dá)網(wǎng)絡(luò),但這個(gè)網(wǎng)絡(luò)只是基于TF和gene表達(dá)量相關(guān)性推測(cè)的,TF和gene之間是否現(xiàn)實(shí)存在調(diào)控關(guān)系還需要進(jìn)一步確證。確證的方法主要從TF功能結(jié)構(gòu)入手,從下圖可以看出,TF是通過(guò)直接與DNA結(jié)合而發(fā)揮作用的,因此我們可以通過(guò)反向查看gene上是否存在TF結(jié)合的motif序列來(lái)驗(yàn)證TF與gene的靶向關(guān)系

TF功能結(jié)構(gòu)示意圖

這一步可以借助RcisTarget軟件完成,該軟件運(yùn)行必備兩個(gè)數(shù)據(jù)庫(kù):1)gene-motif排名數(shù)據(jù)庫(kù):為每個(gè)motif提供所有g(shù)ene的排名(~分?jǐn)?shù));2)motif-TF注釋數(shù)據(jù)庫(kù):對(duì)每一個(gè)motif注釋其所對(duì)應(yīng)的TF。由于不同物種基因組不一樣,導(dǎo)致每個(gè)motif對(duì)應(yīng)靶基因不同,因此針對(duì)不同物種需要構(gòu)建不同的數(shù)據(jù)庫(kù),軟件目前配置了人、小鼠、果蠅數(shù)據(jù)庫(kù),其他物種需要自己構(gòu)建數(shù)據(jù)庫(kù)噢~這也是在開(kāi)頭提醒大家注意物種限制的原因。

那么具體驗(yàn)證過(guò)程,首先基于gene-motif數(shù)據(jù)庫(kù),每個(gè)motif對(duì)模塊中所有基因進(jìn)行累積,模塊中的基因排名越靠前,累積曲線越高,曲線下面積 (AUC) 越大,表明motif在該模塊中的富集程度越高,然后對(duì)每個(gè)模塊選取顯著富集的motif,并預(yù)測(cè)其靶基因,最終綜合TF-genes模塊和靶基因預(yù)測(cè)結(jié)果,構(gòu)成一個(gè)包含了TF和靶基因的基因調(diào)控網(wǎng)絡(luò)模塊 (regulons)。下圖也為大家做了簡(jiǎn)要概括。

RcisTarget Regulons構(gòu)建過(guò)程

AUCell——Regulons活性定量

第三步就是Regulons活性定量。這一步由AUCell軟件完成,AUCell是一種新的方法,允許在scRNA-seq數(shù)據(jù)中識(shí)別具有活性基因調(diào)控網(wǎng)絡(luò)的細(xì)胞。

實(shí)際分析過(guò)程中,輸入到AUCell的是一個(gè)基因集,輸出的是每個(gè)細(xì)胞中的基因集“活性” (AUC, Area Under Curve)。在SCENIC中,這些基因集即Regulons中所有基因,針對(duì)每個(gè)細(xì)胞,將細(xì)胞中所有基因按照表達(dá)量從高到低進(jìn)行排序,根據(jù)Regulons中的基因在序列中的位置,計(jì)算累計(jì)曲線面積 (AUC) ,即為Regulons在細(xì)胞中的活性。

但由于不同regulons包含的基因不同,它們之間的AUC值不具有可比較性,因此基于AUC值在所有細(xì)胞中的雙峰分布特征,增加了Regulons“on/off”的概念,認(rèn)為雙峰之間的低谷為判斷Regulons活性開(kāi)放的閾值,如果AUC值小于閾值,則判定為該Regulons在該細(xì)胞中未開(kāi)放,即未發(fā)揮調(diào)控作用。最終獲得每個(gè)Regulons在每個(gè)細(xì)胞中的開(kāi)放性熱圖。


AUCell 細(xì)胞Regulons活性計(jì)算過(guò)程

結(jié)果解讀(簡(jiǎn)單版)

SCENIC分析結(jié)果

結(jié)果可視化也是SCENIC軟件功能之一,默認(rèn)輸出的結(jié)果圖主要是以下兩種,一個(gè)是基于AUC值繪制的Regulons活性熱圖,圖中每一行表示一個(gè)Regulons,每一列為一個(gè)細(xì)胞,顏色表示AUC值大小,這類熱圖主要用于比較同一Regulons在不同細(xì)胞中的活性,尋找Regulons特異性活化的細(xì)胞亞群;另一種是基于AUC二值矩陣?yán)L制的Regulons開(kāi)放性熱圖,這類熱圖可用于尋找細(xì)胞中開(kāi)放的Regulons,有利于細(xì)胞亞群功能判斷

上面的內(nèi)容相信很多人都看到過(guò),接下來(lái)我們要進(jìn)行文獻(xiàn)中的實(shí)例解讀

還有 28% 的精彩內(nèi)容
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。
支付 ¥1.00 繼續(xù)閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容