文庫標(biāo)準(zhǔn)化的目的
RNA-seq每個(gè)基因的長度和深度均不相同,所以需要對(duì)基因的長度和測序深度進(jìn)行Normalize
輸入
一個(gè)Read Count的數(shù)據(jù)矩陣(行為基因,列為樣本)。
第一種 RPKM (適合于單端測序)
這個(gè)就很簡單粗暴地將基因的reads數(shù) 除以 測序reads數(shù)(去除測序深度效應(yīng))和基因長度(去除基因長度效應(yīng))
- RPKM是Reads Per Kilobase per Million mapped reads的縮寫
計(jì)算公式:
RPKM = total exon reads / (mapped reads(Millions) * exon length(KB))
total exon reads:某個(gè)樣本mapping到特定基因的外顯子上的所有的reads;
mapped reads (Millions) :某個(gè)樣本的所有reads總和;
exon length(KB):某個(gè)基因的長度(外顯子的長度的總和,以KB為單位)
第二種 FPKM (適合于雙端測序)
FPKM(Fragments PerKilobase Million): Fragments Per Kilobase of exon model per Million mapped fragments
FPKM和RPKM的計(jì)算方法基本一致,只不過把reads換成了Fragments。
- 單端測序:FPKM等同于RPKM
- 雙端測序:
- 如果一對(duì)paired-read都比對(duì)上了,這一對(duì)paired-read稱之為一個(gè)fragment
- 如果只有一個(gè)比對(duì)上了,就將這個(gè)比對(duì)上的read稱為一個(gè)fragment。
- 一對(duì)paired-read會(huì)當(dāng)成兩個(gè)read分別計(jì)算
計(jì)算公式
FPKM = total exon Fragments / (mapped reads(Millions) * exon length(KB))

第三種 TPM
TPM(Transcripts PerKilobase Million):Transcripts Per Kilobase of exon model per Million mapped reads
計(jì)算公式
TPMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
- Ni:mapping到基因i上的read數(shù);
- Li:基因i的外顯子長度的總和
一個(gè)樣本中某基因的TPM值的計(jì)算方法:先對(duì)每個(gè)基因的read數(shù)用基因的長度進(jìn)行校正,之后再用校正后的這個(gè)基因read數(shù)(Ni/Li)與校正后的這個(gè)樣本的所有read數(shù)(sum(Ni/Li+……..+ Nm/Lm))求商
在計(jì)算TPM是先對(duì)基因長度進(jìn)行標(biāo)準(zhǔn)化,之后再對(duì)列進(jìn)行標(biāo)準(zhǔn)化。
這樣使得最終的TPM矩陣的每列總和都相同(等于1000000),也就是說每個(gè)樣本中的TPM的總和都是一樣的。理論上,這使得我們更容易比較不同樣本中所占同一基因的read數(shù)的比例。
學(xué)術(shù)界已經(jīng)不再推薦RPKM、FPKM, 比較基因的表達(dá)豐度,例如哪個(gè)基因在哪個(gè)組織里高表達(dá),用TPM做均一化處理;

第四種 CPM
Counts per million
計(jì)算公式:
CPM= A/mapped reads*1000000
- A為比對(duì)到某基因的reads數(shù)(read count)
- mapped reads為比對(duì)到所有 gene 的總reads 數(shù)。
用途:在某些情況下,只想了解每個(gè)基因被覆蓋到的相對(duì)reads數(shù),而不希望對(duì)其做長度校正,就會(huì)使用這個(gè)指標(biāo)。
CPM只對(duì)read count相對(duì)總reads數(shù)做了數(shù)量的均一化。當(dāng)如果想進(jìn)行表達(dá)量的基因間比較,則不得不考慮基因長度的不同。如果進(jìn)一步做長度的均一化,就用RPKM。
第五種 RPM
與CPM相似
計(jì)算公式
RPM = Total exon reads/ Mapped reads(Millions)