pySCENIC 軟件分析原理
利用GENIE3算法識(shí)別與轉(zhuǎn)錄因子共表達(dá)的基因集合,但結(jié)果包含大量的假陽性結(jié)果和間接靶標(biāo);
RcisTarget通過基序富集分析來排除假陽性和間接靶標(biāo)。排除標(biāo)準(zhǔn):基因的啟動(dòng)子或增強(qiáng)子區(qū)域沒有該TF的結(jié)合位點(diǎn);基因攜帶該TF基序的比例不顯著高于背景基因;
通過AUCell算法對(duì)調(diào)控子(regulon)的整體活性進(jìn)行打分,即一個(gè)細(xì)胞里調(diào)控子包含的很多基因都高表達(dá),那么這個(gè)調(diào)控子的活性得分就高。后續(xù)可基于此,識(shí)別不同的細(xì)胞類型與狀態(tài)
代碼
#1. GRN
pyscenic grn --num_workers 10 \
--sparse \
--method grnboost2 \
--output sce.adj.csv \
sce.loom \
./hs_hgnc_tfs.txt
#2. RcisTarget
pyscenic ctx --num_workers 10 \
--output sce.regulons.csv \
--expression_mtx_fname sce.loom \
--all_modules \
--mask_dropouts \
--mode "dask_multiprocessing" \
--min_genes 10 \
--annotations_fname ../motifs-v9-nr.hgnc-m0.001-o0.0.tbl \
sce.adj.csv \
./hg38__refseq-r80__10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather
#3. AUCell
pyscenic aucell --num_workers 3 \
--output sce_SCENIC.loom \
sce.loom \
sce.regulons.csv
輸出結(jié)果文件
第二步和第三步輸出的結(jié)果都有用,先看第二步輸出的結(jié)果文件sce.regulons.csv

image.png
關(guān)鍵列:TF,NES,TargetGenes
后續(xù)可做的分析:
- 靶基因功能富集分析
- 構(gòu)建TF-靶基因調(diào)控網(wǎng)絡(luò)(Cytoscape)
- 篩選核心調(diào)控因子(計(jì)算每個(gè)TF調(diào)控的靶基因數(shù)量→數(shù)量排序→結(jié)合NES篩選可靠的hub-TFs)
- 跨細(xì)胞類型/疾病的比較分析(共同激活的YFs或靶基因)
- TFs調(diào)控差異基因
第三步輸出的結(jié)果sce_SCENIC.loom

image.png
數(shù)值是每個(gè)細(xì)胞中每個(gè)TF的活性分?jǐn)?shù)
后續(xù)可做的分析:
- TF活性可視化(UMAP; vlnplot; heatmap)
- 細(xì)胞類型特異性分析(RSS分析:計(jì)算每個(gè)regulon對(duì)每種細(xì)胞亞群的特異性得分→ 每個(gè)細(xì)胞亞群的主導(dǎo)TF regulon)
- 擬時(shí)序動(dòng)態(tài)分析
- TF共調(diào)控網(wǎng)絡(luò)分析(CSI矩陣+重聚類)
- TF在細(xì)胞周期階段的分析
- 與表型/臨床信息關(guān)聯(lián)
- 高/低TF活性組的差異表達(dá)分析