RPKM,F(xiàn)PKM和TPM明確解釋| RNA-Seq博客
來(lái)自StatQuest
過(guò)去,當(dāng)您進(jìn)行RNA測(cè)序時(shí),您以RPKM(Reads Per Kilobase Million 每千堿基百萬(wàn)個(gè)讀數(shù))或FPKM(Fragments Per Kilobase Million 每千堿基百萬(wàn)個(gè)碎片)報(bào)告結(jié)果。但是,TPM(Transcripts Per Kilobase Million每千堿基記錄本)現(xiàn)在變得非常流行。由于這些術(shù)語(yǔ)似乎有很多混亂,我認(rèn)為我將使用StatQuest清除所有內(nèi)容。
這三個(gè)指標(biāo)試圖對(duì)測(cè)序深度和基因長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化。這是針對(duì)RPKM的操作方法:
- 計(jì)算樣本中的總讀數(shù),并將該數(shù)字除以1,000,000-這是我們的“每百萬(wàn)”縮放比例。
- 將讀取計(jì)數(shù)除以“每百萬(wàn)”縮放比例。這會(huì)規(guī)范化測(cè)序深度,使您的讀數(shù)達(dá)到百萬(wàn)分之一(RPM)
- 將RPM值除以基因長(zhǎng)度(以千堿基為單位)。這為您提供了RPKM。
FPKM與RPKM非常相似。RPKM是針對(duì)單端RNA-seq制作的,其中每個(gè)讀數(shù)對(duì)應(yīng)于一個(gè)已測(cè)序的單個(gè)片段。FPKM用于配對(duì)末端RNA-seq。使用成對(duì)末端RNA-seq,兩個(gè)讀段可以對(duì)應(yīng)一個(gè)片段,或者,如果該對(duì)中的一個(gè)讀段沒(méi)有作圖,則一個(gè)讀段可以對(duì)應(yīng)一個(gè)片段。RPKM和FPKM之間的唯一區(qū)別是FPKM考慮到兩次讀取可以映射到一個(gè)片段(因此它不會(huì)對(duì)該片段進(jìn)行兩次計(jì)數(shù))。
TPM與RPKM和FPKM非常相似。唯一的區(qū)別是操作順序。這是您計(jì)算TPM的方法:
- 將讀數(shù)計(jì)數(shù)除以每個(gè)基因的長(zhǎng)度(以千堿基為單位)。這樣就可以得到每千個(gè)基數(shù)(RPK)的讀數(shù)。
- 計(jì)算樣本中所有RPK值,然后將其除以1,000,000。這是您的“每百萬(wàn)”縮放比例。
- 將RPK值除以“每百萬(wàn)”比例因子。這為您提供了TPM。
因此,您會(huì)看到,在計(jì)算TPM時(shí),唯一的區(qū)別是先對(duì)基因長(zhǎng)度進(jìn)行歸一化,然后對(duì)序列深度進(jìn)行歸一化。但是,這種差異的影響非常深遠(yuǎn)。
使用TPM時(shí),每個(gè)樣本中所有TPM的總和是相同的。這樣可以更輕松地比較每個(gè)樣本中映射到基因的讀段的比例。相反,使用RPKM和FPKM,每個(gè)樣本中的標(biāo)準(zhǔn)化讀數(shù)之和可能會(huì)有所不同,這使得直接比較樣本變得更加困難。
這是一個(gè)例子。如果樣品1中基因A的TPM為3.33,而樣品B中TPM為3.33,則我知道這兩個(gè)樣品中映射到基因A的總讀數(shù)的比例完全相同。這是因?yàn)閮蓚€(gè)樣本中的TPM的總和總是相同(因此,無(wú)論您要查看的是什么樣本,計(jì)算比例所需要的分母都是相同的。)
使用RPKM或FPKM,每個(gè)樣本中的標(biāo)準(zhǔn)化讀數(shù)之和可能不同。因此,如果樣本1中基因A的RPKM為3.33,樣本2中的RPKM為3.33,我將不知道樣本1中與基因2映射的基因A的讀取比例是否相同,這是因?yàn)榉帜感枰?jì)算兩個(gè)樣本的比例可能會(huì)有所不同。
來(lái)源– StatQuest