【轉(zhuǎn)錄組】文庫數(shù)據(jù)標(biāo)準(zhǔn)化方法RPKM FPKM TPM CPM RPM(理論篇)

文庫標(biāo)準(zhǔn)化的目的

RNA-seq每個(gè)基因的長度和深度均不相同,所以需要對(duì)基因的長度和測序深度進(jìn)行Normalize

輸入

一個(gè)Read Count的數(shù)據(jù)矩陣(行為基因,列為樣本)。

第一種 RPKM (適合于單端測序)

這個(gè)就很簡單粗暴地將基因的reads數(shù) 除以 測序reads數(shù)(去除測序深度效應(yīng))和基因長度(去除基因長度效應(yīng))

  • RPKM是Reads Per Kilobase per Million mapped reads的縮寫

計(jì)算公式:

RPKM = total exon reads / (mapped reads(Millions) * exon length(KB))                            

total exon reads:某個(gè)樣本mapping到特定基因的外顯子上的所有的reads;

mapped reads (Millions) :某個(gè)樣本的所有reads總和;

exon length(KB):某個(gè)基因的長度(外顯子的長度的總和,以KB為單位)

第二種 FPKM (適合于雙端測序)

FPKM(Fragments PerKilobase Million): Fragments Per Kilobase of exon model per Million mapped fragments

FPKM和RPKM的計(jì)算方法基本一致,只不過把reads換成了Fragments。

  • 單端測序:FPKM等同于RPKM
  • 雙端測序:
    • 如果一對(duì)paired-read都比對(duì)上了,這一對(duì)paired-read稱之為一個(gè)fragment
    • 如果只有一個(gè)比對(duì)上了,就將這個(gè)比對(duì)上的read稱為一個(gè)fragment。
    • 一對(duì)paired-read會(huì)當(dāng)成兩個(gè)read分別計(jì)算

計(jì)算公式

FPKM = total exon Fragments / (mapped reads(Millions) * exon length(KB))

第三種 TPM

TPM(Transcripts PerKilobase Million):Transcripts Per Kilobase of exon model per Million mapped reads

計(jì)算公式

TPMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
  • Ni:mapping到基因i上的read數(shù);
  • Li:基因i的外顯子長度的總和

一個(gè)樣本中某基因的TPM值的計(jì)算方法:先對(duì)每個(gè)基因的read數(shù)用基因的長度進(jìn)行校正,之后再用校正后的這個(gè)基因read數(shù)(Ni/Li)與校正后的這個(gè)樣本的所有read數(shù)(sum(Ni/Li+……..+ Nm/Lm))求商

在計(jì)算TPM是先對(duì)基因長度進(jìn)行標(biāo)準(zhǔn)化,之后再對(duì)列進(jìn)行標(biāo)準(zhǔn)化。

這樣使得最終的TPM矩陣的每列總和都相同(等于1000000),也就是說每個(gè)樣本中的TPM的總和都是一樣的。理論上,這使得我們更容易比較不同樣本中所占同一基因的read數(shù)的比例。

學(xué)術(shù)界已經(jīng)不再推薦RPKM、FPKM, 比較基因的表達(dá)豐度,例如哪個(gè)基因在哪個(gè)組織里高表達(dá),用TPM做均一化處理;


第四種 CPM

Counts per million

計(jì)算公式:

CPM= A/mapped reads*1000000 
  • A為比對(duì)到某基因的reads數(shù)(read count)
  • mapped reads為比對(duì)到所有 gene 的總reads 數(shù)。

用途:在某些情況下,只想了解每個(gè)基因被覆蓋到的相對(duì)reads數(shù),而不希望對(duì)其做長度校正,就會(huì)使用這個(gè)指標(biāo)。

CPM只對(duì)read count相對(duì)總reads數(shù)做了數(shù)量的均一化。當(dāng)如果想進(jìn)行表達(dá)量的基因間比較,則不得不考慮基因長度的不同。如果進(jìn)一步做長度的均一化,就用RPKM。

第五種 RPM

與CPM相似

計(jì)算公式

RPM = Total exon reads/ Mapped reads(Millions)

學(xué)習(xí)自

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容