前言:
自學生信也有一段時間了,對于大多數(shù)的生信軟件,勉強能混個眼熟,但是要說出他們之間微妙的區(qū)別,確實很難。好在,最近看到Nature Communication上一篇可謂是“史上最全RNA-Seq數(shù)據(jù)分析流程”文獻,結(jié)合著 生信寶典解讀,把整個文章看完,梳理文中所使用的軟件,增補廣為使用的軟件,并做思維導圖。

RNA_seq分析流程軟件思維導圖_J.F.XIE.png
1. Raw data Quality control | 原始數(shù)據(jù)質(zhì)控:
- reads質(zhì)量評估:Fastqc、multicq、PRINSEQ
- reads預處理:trimmomatic、Cutadapt、FASTX-Toolkit、RSeQC、trim-galore、PRINSEQ
2. Alignment and Assembly | 比對組裝
2.1 Reference-based transcript identification | 有參轉(zhuǎn)錄本鑒定
- Alignment | 序列比對
TopHat 、STAR、HISAT2、RASER、Bowtie2、BWA、SOAP、subread- Alignment-based transcriptome assembly | 轉(zhuǎn)錄組組裝
- Short-read Assembly 二代短片段組裝: Cufflinks、StringTie
- Long-read analysis tools 三代長片段組裝:LoRDEC、GMAP、STARlong、IDP
2.2 De novo Assembly | 從頭組裝:
Trinity、SOAPdenovo-Trans、Oases、Trimmomatic
3. Quantication | 表達定量
Quantication : HTSeq、RSEM、featureCounts、eXpress、kallisto、Sailsh、Salmon-Aln、Salmon-SMEM、Salmon-Quasi
- Alignment-based transcript quantification 比對定量:HTSeq、featureCounts、RSEM、eXpress 、Salmon-Aln
- Alignment-free transcript quantification 無比對定量:Sailfish, Salmon-SMEM、Salmon-Quasi、quasi-mapping, kallisto
- long-read-based technique 長讀數(shù)定量: IDP(using different short-read and long-read aligners)
4. Differential expression | 差異分析
Dierential expression analysis : DESeq2、edgeR 、limma、Cuffdiff、Ballgown 、Tablemaker、sleuth
- count-based 基于計數(shù):DESeq2, limma, edgeR
- ssembly-based 基于組裝 :Cuffdiff 、Ballgown
- alignment-free quantifications 無比對定量:sleuth
5. RNA-seq variation analysis | 變異分析
RNA-seq data can be used to identify important genomic and transcriptomic variations
- Variant Calling 序列變異:SAMtools 、GATK
- RNA Editing 基因編輯:GIREMI、Varsim
- RNA Fusion 基因融合:FusionCatcher、JAFFA、SOAPfuse、STAR-Fusion、TopHat-Fusion
說明:
RNA_seq經(jīng)典分析流程,序列比對、組裝、定量……,而這里為了兼顧無參轉(zhuǎn)錄組分析,將其列在“2. Alignment and Assembly | 比對組裝”中,使框架更加清晰可讀,便于讀者理解。
文獻來源:Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown

RNA_seq分析流程軟件.png