之前一直用的是Tophat + Htseq-count + Deseq2的分析組合來(lái)做rnaseq的回帖,確定基因表達(dá)量,以及做差異基因的分析。
但是,tophat已經(jīng)是比較過(guò)時(shí)的軟件了,最重要過(guò)時(shí)原因是做一個(gè)回帖需要的時(shí)間太長(zhǎng)了,而STAR所用的時(shí)間只是它的三十分之一左右。并且,輸出的bam是unsorted的,需要自己再做一步bam file sorting。
而htseq-count只能得到gene read counts,而不能得到TPM或者RPKM的值來(lái)顯示每個(gè)基因的歸一化之后的表達(dá)量。而用RSEM軟件則很好的解決了這個(gè)問(wèn)題。
因此,一個(gè)好的RNASeq分析流程就可以是:
1. 用Star做reads mapping
2. 用RSEM做基因表達(dá)量的quantification
3. 用DESeq2做基因差異分析
這一步的輸入文件就可以從STAR中來(lái),因?yàn)镾TAR內(nèi)置了htseq-count的函數(shù),可以輸出gene read counts。另外,DESeq2的performance在做差異基因的軟件里面表現(xiàn)得是最好的。