參考這篇：
??????我覺得學(xué)RNA-seq必看的文獻(xiàn)??！??????
這篇寫的特別好：RNAseq-workflow
本科生搞定RNA-seq上游數(shù)據(jù)分析
 RNA-seq一般流程

1. 下載gtf基因組注釋文件

ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz

2. 使用featureCounts進(jìn)行alignment-based的定量

gtf="路徑/Homo_sapiens.GRCh38.99.gtf.gz" 
featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *.bam
cat all.id.txt | cut -f1,7- > counts.txt  #去除多余信息，保存表達(dá)矩陣為counts.txt

3. 差異表達(dá)分析

在R中

3.1 基因表達(dá)量的標(biāo)準(zhǔn)化方法及可視化

以下資料來源于：counts值，RPM,RPKM,FPKM,TPM的異同

標(biāo)準(zhǔn)化的主要目的是去除測序數(shù)據(jù)的技術(shù)偏差：測序深度和基因長度。

測序深度：同一條件下，測序深度越深，基因表達(dá)的read讀數(shù)越多。

基因長度：同一條件下，不同的基因長度產(chǎn)生不對等的read讀數(shù)，基因越長，該基因的read讀數(shù)越高。

Counts值

對給定的基因組參考區(qū)域，計算比對上的read數(shù)，又稱為raw count（RC）。

計數(shù)結(jié)果的差異的影響因素：落在參考區(qū)域上下限的read是否需要被統(tǒng)計，按照什么樣的標(biāo)準(zhǔn)進(jìn)行統(tǒng)計。

RPM (Reads per million mapped reads)

RPM

RPM方法：10^6標(biāo)準(zhǔn)化了測序深度的影響，但沒有考慮轉(zhuǎn)錄本的長度的影響。

RPM適合于產(chǎn)生的read讀數(shù)不受基因長度影響的測序方法，比如miRNA-seq測序，miRNA的長度一般在20-24個堿基之間。

RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)

RPKM/FPKM

RPKM/FPKM方法：10^3 標(biāo)準(zhǔn)化了基因長度的影響，10^6標(biāo)準(zhǔn)化了測序深度的影響。

FPKM方法與RPKM類似，主要針對雙末端RNA-seq實驗的轉(zhuǎn)錄本定量。在雙末端RNA-seq實驗中，有左右兩個對應(yīng)的read來自相同的DNA片段。在進(jìn)行雙末端read進(jìn)行比對時，來自同一DNA片段的高質(zhì)量的一對或單個read可以定位到參考序列上。為避免混淆或多次計數(shù)，統(tǒng)計一對或單個read比對上的參考序列片段（Fragment），來計算FPKM，計算方法同RPKM。

RPKM/FPKM與RPM的區(qū)別：考慮了基因長度對read讀數(shù)的影響。
RPKM與FPKM的區(qū)別：RPKM值適用于單末端RNA-seq實驗數(shù)據(jù)，F(xiàn)PKM適用于雙末端RNA-seq測序數(shù)據(jù)。

RPKM/FPKM適用于基因長度波動較大的測序方法，如lncRNA-seq測序，lncRNA的長度在200-100000堿基不等。

TPM (Transcript per million)

TPM

TPM的計算方法也同RPKM/FPKM類似，首先使用式2計算每個基因的表達(dá)值，去除基因長度的影響。隨后計算每個基因的表達(dá)量的百分比，最后再乘以10^6，TPM可以看作是RPKM/FPKM值的百分比。

TPM值就是RPKM的百分比

相當(dāng)于重新標(biāo)準(zhǔn)化的文庫，保證每個樣本中所有TPM的總和是相同的。

TPM與RPKM/FPKM的區(qū)別：從計算公式來說，唯一的不同是計算操作的順序，TPM是先去除了基因長度的影響，而RPKM/FPKM是先去除測序深度的影響，TPM實際上改進(jìn)了RPKM/FPKM方法在跨樣品間定量的不準(zhǔn)確性。
TPM的使用范圍與RPKM/FPKM相同。

總結(jié)

raw count作為原始的read計數(shù)矩陣是一個絕對值，而絕對值的特點是規(guī)模不同（基因長度、測序深度），不可以比較。進(jìn)行這些基因標(biāo)準(zhǔn)化方法的目的是將count矩陣轉(zhuǎn)變?yōu)橄鄬χ担コ夹g(shù)偏差的影響，使后續(xù)的差異分析具有統(tǒng)計學(xué)的意義。

3.2 差異表達(dá)分析及可視化

limma/voom，edgeR，DESeq2，轉(zhuǎn)錄組差異分析的三大R包!

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

RNA-seq摸索：3.基因表達(dá)水平分析→featureCounts計量→差異表達(dá)分析及可視化

RNA-seq摸索：3.基因表達(dá)水平分析→featureCounts計量→差異表達(dá)分析及可視化

1. 下載gtf基因組注釋文件

2. 使用featureCounts進(jìn)行alignment-based的定量

3. 差異表達(dá)分析

3.1 基因表達(dá)量的標(biāo)準(zhǔn)化方法及可視化

Counts值

RPM (Reads per million mapped reads)

RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)

TPM (Transcript per million)

總結(jié)

3.2 差異表達(dá)分析及可視化

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

RNA-seq摸索：3.基因表達(dá)水平分析→featureCounts計量→差異表達(dá)分析及可視化

1. 下載gtf基因組注釋文件

2. 使用featureCounts進(jìn)行alignment-based的定量

3. 差異表達(dá)分析

3.1 基因表達(dá)量的標(biāo)準(zhǔn)化方法及可視化

Counts值

RPM (Reads per million mapped reads)

RPKM/FPKM (Reads/Fragments per kilo base per million mapped reads)

TPM (Transcript per million)

總結(jié)

3.2 差異表達(dá)分析及可視化

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av