參考這篇:
??????我覺得學(xué)RNA-seq必看的文獻(xiàn)??!??????
這篇寫的特別好:RNAseq-workflow
本科生搞定RNA-seq上游數(shù)據(jù)分析
RNA-seq一般流程
1. 下載gtf基因組注釋文件
ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz
2. 使用featureCounts進(jìn)行alignment-based的定量
gtf="路徑/Homo_sapiens.GRCh38.99.gtf.gz"
featureCounts -T 5 -p -t exon -g gene_id -a $gtf -o all.id.txt *.bam
cat all.id.txt | cut -f1,7- > counts.txt #去除多余信息,保存表達(dá)矩陣為counts.txt
3. 差異表達(dá)分析
在R中
3.1 基因表達(dá)量的標(biāo)準(zhǔn)化方法及可視化
以下資料來源于:counts值,RPM,RPKM,FPKM,TPM的異同
標(biāo)準(zhǔn)化的主要目的是去除測序數(shù)據(jù)的技術(shù)偏差:測序深度和基因長度。
測序深度:同一條件下,測序深度越深,基因表達(dá)的read讀數(shù)越多。
基因長度:同一條件下,不同的基因長度產(chǎn)生不對等的read讀數(shù),基因越長,該基因的read讀數(shù)越高。
Counts值
對給定的基因組參考區(qū)域,計算比對上的read數(shù),又稱為raw count(RC)。
計數(shù)結(jié)果的差異的影響因素:落在參考區(qū)域上下限的read是否需要被統(tǒng)計,按照什么樣的標(biāo)準(zhǔn)進(jìn)行統(tǒng)計。
RPM (Reads per million mapped reads)
RPM方法:10^6標(biāo)準(zhǔn)化了測序深度的影響,但沒有考慮轉(zhuǎn)錄本的長度的影響。
RPM適合于產(chǎn)生的read讀數(shù)不受基因長度影響的測序方法,比如miRNA-seq測序,miRNA的長度一般在20-24個堿基之間。
RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)
RPKM/FPKM方法:10^3 標(biāo)準(zhǔn)化了基因長度的影響,10^6標(biāo)準(zhǔn)化了測序深度的影響。
FPKM方法與RPKM類似,主要針對雙末端RNA-seq實驗的轉(zhuǎn)錄本定量。在雙末端RNA-seq實驗中,有左右兩個對應(yīng)的read來自相同的DNA片段。在進(jìn)行雙末端read進(jìn)行比對時,來自同一DNA片段的高質(zhì)量的一對或單個read可以定位到參考序列上。為避免混淆或多次計數(shù),統(tǒng)計一對或單個read比對上的參考序列片段(Fragment),來計算FPKM,計算方法同RPKM。
RPKM/FPKM與RPM的區(qū)別:考慮了基因長度對read讀數(shù)的影響。
RPKM與FPKM的區(qū)別:RPKM值適用于單末端RNA-seq實驗數(shù)據(jù),F(xiàn)PKM適用于雙末端RNA-seq測序數(shù)據(jù)。
RPKM/FPKM適用于基因長度波動較大的測序方法,如lncRNA-seq測序,lncRNA的長度在200-100000堿基不等。
TPM (Transcript per million)
TPM的計算方法也同RPKM/FPKM類似,首先使用式2計算每個基因的表達(dá)值,去除基因長度的影響。隨后計算每個基因的表達(dá)量的百分比,最后再乘以10^6,TPM可以看作是RPKM/FPKM值的百分比。
相當(dāng)于重新標(biāo)準(zhǔn)化的文庫,保證每個樣本中所有TPM的總和是相同的。
TPM與RPKM/FPKM的區(qū)別:從計算公式來說,唯一的不同是計算操作的順序,TPM是先去除了基因長度的影響,而RPKM/FPKM是先去除測序深度的影響,TPM實際上改進(jìn)了RPKM/FPKM方法在跨樣品間定量的不準(zhǔn)確性。
TPM的使用范圍與RPKM/FPKM相同。
總結(jié)
raw count作為原始的read計數(shù)矩陣是一個絕對值,而絕對值的特點是規(guī)模不同(基因長度、測序深度),不可以比較。進(jìn)行這些基因標(biāo)準(zhǔn)化方法的目的是將count矩陣轉(zhuǎn)變?yōu)橄鄬χ担コ夹g(shù)偏差的影響,使后續(xù)的差異分析具有統(tǒng)計學(xué)的意義。