Read count CPM RPKM

RNA-seq看表達量高低是看哪個值?
1.Read count
(1)數(shù)值概念:比對到gene A的reads數(shù)。
(2)用途:用于換算CPM、RPKM等后續(xù)其他指標(biāo);作為基因表達差異分析的輸入數(shù)值。
大部分差異分析軟件(如DESeq和edgeR),用原始的可比對的reads count作為輸入,并用負二項分布模型估算樣本間基因差異表達的概率。

軟件自動會對reads count做一些校正。如果你使用一些校正后的指標(biāo),例如RPKM作為輸入,是不合理的。

2.CPM:Counts per million
(1)數(shù)值概念:計算公式:CPM=C/N*1000000
設(shè)C為比對到 gene A 的 reads 數(shù)(read count),
N 為比對到所有 gene 的總reads 數(shù)。

(2)用途:在某些情況下,只想了解每個基因被覆蓋到的相對reads數(shù),而不希望對其做長度校正,就會使用這個指標(biāo)。

在某些RNA-seq文章或一些軟件輸出結(jié)果中(如edgeR)會出現(xiàn)。
CPM只對read count相對總reads數(shù)做了數(shù)量的均一化。

當(dāng)如果想進行表達量的基因間比較,則不得不考慮基因長度的不同。

如果進一步做長度的均一化,就得到了下面的RPKM。

3.RPKM:Reads Per kb perMillion reads
(1)數(shù)值概念:計算公式:RPKM=(1000000C)/(NL/1000)
設(shè)C 為比對到 gene A 的 reads數(shù)(read count),
N為比對到所有 gene 的總 reads 數(shù),L 為 gene A 的堿基數(shù)。 RPKM法能消除基因長度和測序量差異對計算基因表達的影響,
計算得到的基因表達量可直接用于比較不同樣品間的基因表達差異。

(2)用途:用于與基因表達量相關(guān)的后期分析.例如:基因表達趨勢分析,共表達網(wǎng)絡(luò)構(gòu)建,熱圖繪制等都使用這類數(shù)值。

FPKM意義與RPKM極為相近。
二者區(qū)別僅在于,F(xiàn)ragment 與Read。

RPKM的誕生是針對早期的SE測序,F(xiàn)PKM則是在PE測序上對RPKM的校正。

只要明確Reads和Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分。
Reads即是指下機后fastq數(shù)據(jù)中的每一條Reads,
Fragments則是指每一段用于測序的核酸片段。

1.RNA-Seq又稱轉(zhuǎn)錄組高通量測序(transcriptome sequencing)或稱為全轉(zhuǎn)錄組鳥槍法測序(Whole Transcriptom Shotgun Sequencing WTSS)

把高通量測序技術(shù)應(yīng)用到由 RNA 逆轉(zhuǎn)錄生成的 cDNA 上,

從而獲得來自不同基因的RNA 片段在特定樣本中的含量

2.基因表達(gene expression)
基因組中結(jié)構(gòu)基因經(jīng)過轉(zhuǎn)錄、翻譯等過程,合成蛋白質(zhì),
進而發(fā)揮其特定的生物學(xué)功能的全過程。

3.轉(zhuǎn)錄組
遺傳學(xué)中心法則表明,遺傳信息通過信使RNA(mRNA)從DNA傳遞到蛋白質(zhì),
因此,mRNA被稱為DNA和蛋白質(zhì)之間信息傳遞的”橋梁”,

而所有表達基因的序列及其轉(zhuǎn)錄水平,綜合起來被稱為 轉(zhuǎn)錄組(transcriptome)。
即:特定組織或細胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,
包括mRNA和非編碼RNA。

轉(zhuǎn)錄組(transcriptome)
廣義上指某一生理條件下,細胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,
包括信使mRNA、核糖體rRNA、轉(zhuǎn)運tRNA及非編碼non-coding RNA;
狹義上指所有mRNA的集合。

蛋白質(zhì)是行使細胞功能的主要承擔(dān)者,蛋白質(zhì)組是細胞功能和狀態(tài)的最直接描述,

轉(zhuǎn)錄組成為研究基因表達的主要手段,
轉(zhuǎn)錄組是連接基因組遺傳信息與生物功能的蛋白質(zhì)組的必然紐帶,
轉(zhuǎn)錄水平的調(diào)控是目前研究最多的,也是生物體最重要的調(diào)控方式。

基因的Transcript Variant 和 isoform的區(qū)別如下:
1.transcript variant是從結(jié)果來看的,一個基因產(chǎn)生了不同的mRNA;
splice variant是從過程講的,強調(diào)內(nèi)含子剪切的方式不一樣。
variant指的是轉(zhuǎn)錄本的亞型,
isform指的是蛋白水平的。
有的時候雖然variant很多但是對應(yīng)的蛋白可能是重復(fù)的。

2.有很多過程可以影響isoform的形成,如可變剪切
即不一定所有的外顯子都用來形成成熟的mRNA,而且有時候什么內(nèi)含子,外顯子也不是絕對的。

另外有RNA editing這個過程,會使得形成mRNA時某個特定的位置的堿基發(fā)生變化,
也就是變成不是原來基因想要編碼的東西。

有個例子就是一個叫XBP-1的轉(zhuǎn)錄因子,它調(diào)控細胞的unfolded protein response,

激活方式就是上游蛋白剪切其mRNA然后生成有活性的mRNA,
所以這種variant的生成竟然也是調(diào)控的一種方法。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容