chapter95 RNA-seq的比較單位RPKM、FPKM

進(jìn)入正題前先了解幾個(gè)RNA-seq的相關(guān)概念:
effective length,有效長度:在比對(duì)基因組末端的一小部分序列會(huì)產(chǎn)生比中間序列更少的reads數(shù),而由于轉(zhuǎn)錄本存在內(nèi)含子以及多種剪接方式,因此末端序列會(huì)大大增加,這些末端序列會(huì)對(duì)比對(duì)結(jié)果帶來極大的干擾。因此,有一種常見的校正方式是取每個(gè)轉(zhuǎn)錄本的縮短一半的長度為有效長度。
normalization,標(biāo)準(zhǔn)化:由于每個(gè)樣本建庫及測序時(shí)的數(shù)量不一致引起結(jié)果偏差,需要標(biāo)準(zhǔn)化,常見的是文庫大小標(biāo)準(zhǔn)化。

RPKM

由于每個(gè)基因的長度不一致,因此比較基因表達(dá)水平時(shí)需要考慮轉(zhuǎn)錄本的長度。

Nr代表比對(duì)到該轉(zhuǎn)錄本的reads數(shù),C代表樣本總比對(duì)到基因組的reads數(shù),L是該轉(zhuǎn)錄本長度
公式:rpkm =  Nr/C * 1/L * 10^9
10^9:由于前面三個(gè)計(jì)算出的結(jié)果較小,因此乘以10^9使最終結(jié)果可以易讀
進(jìn)一步將10^9拆分稱10^3 * 10^6再分別計(jì)入L和C中,反而增加理解難度
注:本書作者對(duì)這個(gè)單個(gè)表示懷疑,按照單位計(jì)算,N和C是整數(shù),L是長度單位,
那么RPKM單位為長度的倒數(shù),沒有實(shí)際意義。

FPKM

FPKM將RPKM的概念推廣到雙端測序,若為單端測序fpkm=rpkm

Nf代表比對(duì)到該轉(zhuǎn)錄本的fragment數(shù),C代表樣本總比對(duì)到基因組的reads數(shù),L是該轉(zhuǎn)錄本長度
公式 fpkm = Nf/C *1/L * 10^9
注意:
1.在雙端測序中,盡量使用fpkm
2.雙端測序序列一對(duì)匹配上,則作為一個(gè)fragment;如果只有一個(gè)reads比對(duì)上,也記作一個(gè)fragment。
3.若所有雙端匹配都成對(duì)匹配,那么rpkm = 2 fpkm

TPM

TPM假定不同樣本轉(zhuǎn)錄本總分子量相同,進(jìn)行比較,所有基因的TPM值總和為10^6。

T = sum Ni/Li
公式 TPM = N/L * 1/T * 10^6
由于分子分母單位相同,TPM是一個(gè)無單位的數(shù)值

注意

R/FPKM的計(jì)算方式看似合理,但\color{red}{實(shí)際缺乏邏輯}。C/N表示該轉(zhuǎn)錄本的reads數(shù)目占總體reads數(shù)目的比值,其中\color{red}{一個(gè)轉(zhuǎn)錄本的C/N值升高時(shí),必然引起其他轉(zhuǎn)錄本C/N值的相對(duì)降低,}而對(duì)于特定基因而言,L值固定,因此,R/FPKM值必然降低。但是由于大多數(shù)情況下,一個(gè)基因改變對(duì)其他基因的影響被上萬個(gè)基因均分,因而數(shù)值影響不大,所以得出了看似合理的結(jié)果。

TMM

TMM是通過去除部分表達(dá)過高或者過低的基因,通過歸一化測序深度

CPM

CPM是未進(jìn)行長度標(biāo)準(zhǔn)化的單位
公式為 C/N *10^6

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容