RNA-seq摸索:3.基因表達(dá)水平分析→featureCounts計量→差異表達(dá)分析及可視化

參考這篇:
??????我覺得學(xué)RNA-seq必看的文獻(xiàn)??!??????
這篇寫的特別好:RNAseq-workflow
本科生搞定RNA-seq上游數(shù)據(jù)分析
RNA-seq一般流程

1. 下載gtf基因組注釋文件

ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz

2. 使用featureCounts進(jìn)行alignment-based的定量

gtf="路徑/Homo_sapiens.GRCh38.99.gtf.gz" 
featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *.bam
cat all.id.txt | cut -f1,7- > counts.txt  #去除多余信息,保存表達(dá)矩陣為counts.txt

3. 差異表達(dá)分析

R

3.1 基因表達(dá)量的標(biāo)準(zhǔn)化方法及可視化

以下資料來源于:counts值,RPM,RPKM,FPKM,TPM的異同

標(biāo)準(zhǔn)化的主要目的是去除測序數(shù)據(jù)的技術(shù)偏差:測序深度基因長度。

測序深度:同一條件下,測序深度越深,基因表達(dá)的read讀數(shù)越多。

基因長度:同一條件下,不同的基因長度產(chǎn)生不對等的read讀數(shù),基因越長,該基因的read讀數(shù)越高。

Counts值

對給定的基因組參考區(qū)域,計算比對上的read數(shù),又稱為raw count(RC)。

計數(shù)結(jié)果的差異的影響因素:落在參考區(qū)域上下限的read是否需要被統(tǒng)計,按照什么樣的標(biāo)準(zhǔn)進(jìn)行統(tǒng)計。

RPM (Reads per million mapped reads)

RPM

RPM方法:10^6標(biāo)準(zhǔn)化了測序深度的影響,但沒有考慮轉(zhuǎn)錄本的長度的影響。

RPM適合于產(chǎn)生的read讀數(shù)不受基因長度影響的測序方法,比如miRNA-seq測序,miRNA的長度一般在20-24個堿基之間。

RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)

RPKM/FPKM

RPKM/FPKM方法:10^3 標(biāo)準(zhǔn)化了基因長度的影響,10^6標(biāo)準(zhǔn)化了測序深度的影響。

FPKM方法與RPKM類似,主要針對雙末端RNA-seq實驗的轉(zhuǎn)錄本定量。在雙末端RNA-seq實驗中,有左右兩個對應(yīng)的read來自相同的DNA片段。在進(jìn)行雙末端read進(jìn)行比對時,來自同一DNA片段的高質(zhì)量的一對或單個read可以定位到參考序列上。為避免混淆或多次計數(shù),統(tǒng)計一對或單個read比對上的參考序列片段(Fragment),來計算FPKM,計算方法同RPKM。

RPKM/FPKM與RPM的區(qū)別:考慮了基因長度對read讀數(shù)的影響。
RPKM與FPKM的區(qū)別:RPKM值適用于單末端RNA-seq實驗數(shù)據(jù),F(xiàn)PKM適用于雙末端RNA-seq測序數(shù)據(jù)。

RPKM/FPKM適用于基因長度波動較大的測序方法,如lncRNA-seq測序,lncRNA的長度在200-100000堿基不等。

TPM (Transcript per million)

TPM

TPM的計算方法也同RPKM/FPKM類似,首先使用式2計算每個基因的表達(dá)值,去除基因長度的影響。隨后計算每個基因的表達(dá)量的百分比,最后再乘以10^6,TPM可以看作是RPKM/FPKM值的百分比。

TPM值就是RPKM的百分比

相當(dāng)于重新標(biāo)準(zhǔn)化的文庫,保證每個樣本中所有TPM的總和是相同的。

TPM與RPKM/FPKM的區(qū)別:從計算公式來說,唯一的不同是計算操作的順序,TPM是先去除了基因長度的影響,而RPKM/FPKM是先去除測序深度的影響,TPM實際上改進(jìn)了RPKM/FPKM方法在跨樣品間定量的不準(zhǔn)確性。
TPM的使用范圍與RPKM/FPKM相同。

總結(jié)

raw count作為原始的read計數(shù)矩陣是一個絕對值,而絕對值的特點是規(guī)模不同(基因長度、測序深度),不可以比較。進(jìn)行這些基因標(biāo)準(zhǔn)化方法的目的是將count矩陣轉(zhuǎn)變?yōu)橄鄬χ担コ夹g(shù)偏差的影響,使后續(xù)的差異分析具有統(tǒng)計學(xué)的意義。

3.2 差異表達(dá)分析及可視化

limma/voom,edgeR,DESeq2,轉(zhuǎn)錄組差異分析的三大R包!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容