RNAseq 簡介
RNA測序(RNA-seq)在過去十年里逐漸成為全轉(zhuǎn)錄組水平分析表達和研究mRNA差異剪接必不可少的工具,應(yīng)用于如單細胞基因表達、RNA翻譯(translatome),RNA結(jié)構(gòu)組(structurome), RNA-RNA/RNA-Protein的相互作用、空間轉(zhuǎn)錄組學(spatialomics)等多種RNA層面的研究(R. Stark, Grzelak, and Hadfield 2019)。
其中表達水平的探究是轉(zhuǎn)錄組領(lǐng)域最熱門和基礎(chǔ)的方向:利用轉(zhuǎn)錄組數(shù)據(jù)來識別轉(zhuǎn)錄本和表達定量,從而對造成細胞/組織/個體間不同狀態(tài)的差異的內(nèi)部原因進行診斷分析,挖掘關(guān)鍵基因:
在不同背景下比較mRNA水平
同一物種,不同組織:研究基因在不同組織的表達情況,找到細胞組織特異性的基因;
同一物種,同一組織:研究基因在不同處理或條件下的表達變化,挖掘特異的功能基因,指導(dǎo)后續(xù)物種改良、疾病診斷等;
同一組織,不同物種:研究基因的進化關(guān)系;
時間序列實驗:基因在不同時期的表達情況與其發(fā)育的關(guān)系,找到發(fā)育階段特異性的基因;
基因分類
分析細胞特異,疾病相關(guān),處理相關(guān)的基因表達模式,探究疾病狀態(tài)相關(guān)的基因;
基因網(wǎng)絡(luò)和通路
基因在細胞活動中的功能,基因間的相互作用。
基本workflow
-
分離所有mRNA
poly(A) 富集:需要提取到的RNA中含有高比例的mRNA
ribosomal depletion:rRNA在總RNA中占比高( 90 %),保守性也高,研究意義不大,還會影響鑒定其他類型RNA。
-
建庫
可以同時構(gòu)建兩種文庫進行測序以獲得多種RNA數(shù)據(jù),即鏈特異性文庫的長片段文庫:將RNA打斷測序,得到mRNA、lncRNA和circRNA;和Small RNA文庫的短片段文庫:得到miRNA、piRNA等。
short-read:cDNA合成 >> 接頭連接 >> PCR擴增
long-read cDNA:cDNA合成 >> PCR擴增 >> SMRT文庫
long-read direct RNA-seq
測序,質(zhì)控: 10–30 million reads per sample
從頭拼接(無參考基因組)、比對參考基因組
-
計數(shù)定量(基因水平、轉(zhuǎn)錄組水平、外顯子水平)
基因水平:括HTSeq-count, Rsubread(featureCounts), BEDTools, Qualimap, GenomicRange
轉(zhuǎn)錄本水平:Cufflinks, StringTie,eXpress, Glimmer, IDP
外顯子水平:DEXSeq
alignment-free:
過濾和標準化(FPKM/RPKM/TPM)
差異表達分析
功能注釋
功能富集分析
-
其他
識別可變剪切
融合基因檢測
eQTL定位
整個分析流程在Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis中有比較詳盡的描述。
實驗設(shè)計
RNA-seq實驗可以運用于多種場景,例如病例與對照,野生型與突變,或疾病與正常比較。
對于不同的場景,可以使用Scotty等工具計算出測序深度和重復(fù)數(shù)之間的最佳權(quán)衡,一般來說三個重復(fù)是分析的最小樣本量;此外,實驗設(shè)計中存在的額外重復(fù)是一個非常強有力的保障,可以用于識別異常樣本,并在具體分析時進行移除或權(quán)重減弱。
參考基因組和注釋信息
測序后得到的是大量短reads,如果沒有參考基因組,就需要從頭組裝(de novo)。如果目的物種的參考基因組已經(jīng)組裝好了,我們只需要把我們測得序列mapping回去就可以進行進一步分析。
常見數(shù)據(jù)庫如:Ensembl, iGenomes, NCBI, and UCSC 的同版本參考基因組序列大致一樣,但它們的注釋和更新頻率是不一樣??偟膩碚f:
UCSC 的注釋比較混亂,同樣ID的基因會出現(xiàn)在不同鏈或不同染色體位置上。
Ensembl 的注釋通常比UCSC 更多(所以噪音更多一點),但ID處理的比較好,不會像UCSC的那么混亂,因此,它們的 ID 通常更容易轉(zhuǎn)換成別的(如,基因名稱、GO和pathway)。
另外,Ensembl還經(jīng)常進行注釋更新,因此可以方便地告訴別人你使用的版本,增強分析的可重復(fù)性。
結(jié)論:想要可重復(fù)性和穩(wěn)健 - RefGene;希望得到更多的信息進行探索性研究 -Ensembl;對于Ensembl序列,選dna或者dna_ssm都可以;最好用primary_assembly,別碰 toplevel ;然后選擇primary_assembly 對應(yīng)的注釋.gff3或.gtf即可。
數(shù)據(jù)標準化
由于測序reads間存在差異,此時需要對count進行校正,常見的校正方式有RPKM,F(xiàn)PKM,TPM and RSEM。
RPKM 適用于單端測序
FPKM 是RPKM的雙端模式,將reads count 換為 Fragments count。
TPM 基于上述方法,并將基因長度的分布納入考量,可能更符合相對表達量的本質(zhì),適用于樣本之間轉(zhuǎn)錄本分布不一致時(如,不同物種RNA-seq的比較)。
DESeq: uses the negative binomial as the reference distribution and provides its own normalization approach.
edgeR: input raw read counts and introduce possible bias sources into the statistical model to perform an integrated normalization.
批次效應(yīng)
由于存在實際限制,Gnomic數(shù)據(jù)通常是分批產(chǎn)生的,但是技術(shù)變化和批間的差異(通常稱為批效應(yīng))可能導(dǎo)致批間數(shù)據(jù)的顯著異質(zhì)性,從而導(dǎo)致不同技術(shù)處理批次數(shù)據(jù)的統(tǒng)計分布差異,并可能對下游生物分析產(chǎn)生不利影響。
批次間每個樣本的整體表達分布的差異可以通過歸一化方法進行校正,例如將原始計數(shù)轉(zhuǎn)換為CPM、TPM或RPKM/FPKM的(對數(shù))、M值的裁剪均值(TMM)或相對對數(shù)表達式(RLE)。然而,每個樣本中基因的表達水平按總表達比例變化,不能通過歸一化完全糾正(Zhang, Parmigiani, and Johnson 2020),此時我們可以利用RUVseq(R包)或ComBat-Seq(R包)進行處理。從而移除文庫準備時造成的差異,提高了統(tǒng)計能力,并產(chǎn)生了更多有意義的差異基因。
References
Au, Kin Fai, Vittorio Sebastiano, Pegah Tootoonchi Afshar, Jens Durruthy Durruthy, Lawrence Lee, Brian A Williams, Harm van Bakel, et al. 2013. “Characterization of the Human Esc Transcriptome by Hybrid Sequencing.” Proceedings of the National Academy of Sciences 110 (50): E4821–E4830.
Djebali, S., V. Wucher, S. Foissac, C. Hitte, E. Corre, and T. Derrien. 2017. “Bioinformatics Pipeline for Transcriptome Sequencing Analysis.” Journal Article. Methods Mol Biol 1468: 201–19. https://doi.org/10.1007/978-1-4939-4035-6_14.
Pertea, Mihaela, Daehwan Kim, Geo M Pertea, Jeffrey T Leek, and Steven L Salzberg. 2016. “Transcript-Level Expression Analysis of Rna-Seq Experiments with Hisat, Stringtie and Ballgown.” Nature Protocols 11 (9): 1650.
Pertea, Mihaela, Geo M Pertea, Corina M Antonescu, Tsung-Cheng Chang, Joshua T Mendell, and Steven L Salzberg. 2015. “StringTie Enables Improved Reconstruction of a Transcriptome from Rna-Seq Reads.” Nature Biotechnology 33 (3): 290–95.
Sahraeian, Sayed Mohammad Ebrahim, Marghoob Mohiyuddin, Robert Sebra, Hagen Tilgner, Pegah T Afshar, Kin Fai Au, Narges Bani Asadi, et al. 2017. “Gaining Comprehensive Biological Insight into the Transcriptome by Performing a Broad-Spectrum Rna-Seq Analysis.” Nature Communications 8 (1): 1–15.
Stark, R., M. Grzelak, and J. Hadfield. 2019. “RNA Sequencing: The Teenage Years.” Journal Article. Nat Rev Genet 20 (11): 631–56. https://doi.org/10.1038/s41576-019-0150-2.
Trapnell, Cole, Brian A Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan, Marijke J Van Baren, Steven L Salzberg, Barbara J Wold, and Lior Pachter. 2010. “Transcript Assembly and Quantification by Rna-Seq Reveals Unannotated Transcripts and Isoform Switching During Cell Differentiation.” Nature Biotechnology 28 (5): 511–15.
Zhang, Yuqing, Giovanni Parmigiani, and W Evan Johnson. 2020. “ComBat-Seq: Batch Effect Adjustment for Rna-Seq Count Data.” bioRxiv.
Wu, H., Wang, C. & Wu, Z. PROPER: comprehensive power evaluation for differential expression using RNA- seq. Bioinformatics 31, 233–241 (2015). Gaye, A. Extending the R Library PROPER to enable power calculations for isoform- level analysis with EBSeq. Front. Genet. 7, 225 (2017). Scotty: http://scotty.genetics.utah.edu