轉(zhuǎn)錄組解釋轉(zhuǎn)載

三四十頁的轉(zhuǎn)錄組的測序報告不知該如何入手,眾多分析結(jié)果不知該關(guān)注哪些?今天我們就從RPKM到KEGG,慢慢給你講解。


01 什么是RPKM值?

02 如何看懂火山圖?

03 MA plot和火山圖有什么區(qū)別?

04?為什么要做主成分分析?

05??從熱圖尋找差異基因

06 GO富集分析的作用

07 KEGG Pathway富集分析

08 KEGG代謝通路圖

09 總結(jié):我們能通過轉(zhuǎn)錄組測序獲得哪些信息?


01 什么是RPKM值?

RPKM值用于衡量基因的表達量,在轉(zhuǎn)錄組測序結(jié)題報告中的表達量的比較分析均以RPKM值為基礎(chǔ)。

RPKM的定義:

RPKM是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)。RPKM是將比對到基因的read數(shù)除以比對到基因組上的所有read數(shù)(以million為單位)與RNA的長度(以KB為單位)。

其公式為:

為什么選擇RPKM?

在衡量基因表達量時,若是單純以比對到的read數(shù)來計算基因的表達量,在統(tǒng)計上是不合理的。因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表達量較高,而錯估基因真正的表達量,所以Ali Mortazavi等人在2008年提出以RPKM在估計基因的表達量。

RPKM值能消除基因長度和測序量差異對計算基因表達的影響,計算得到的基因表達量可直接用于比較不同樣品間的基因表達差異。

當然,RPKM值只是量化基因表達的方式之一,除此之外還有FPKM、TPM等方式。

02 如何看懂火山圖?

轉(zhuǎn)錄組測序最重要的目的就是尋找差異表達基因。標準的火山圖(volcano plot)常用于展示顯著差異表達的基因。

上圖中,每個點代表一個基因,橫軸代表基因在不同樣本中表達倍數(shù)的變化,橫坐標是log2(Fold Change),縱軸代表基因表達量變化差異的統(tǒng)計學顯著性,縱坐標是-log10(P value)。

通常將基因表達變化2倍作為差異表達的閾值,在圖中就是平行于Y軸的兩條線X=1和X=-1,在X=-1左側(cè)的點是下調(diào)超過2倍的基因,在X=1右側(cè)的點是上調(diào)超過2倍的基因。此外,平行于X軸有一條虛線Y=1.30,即-log10(0.05),在虛線上方的點表示有顯著性,因此在X=1右側(cè)、Y=1.30上方的點(紅色的點)就是表達量顯著上調(diào)的基因,在X=-1左側(cè)、Y=1.30上方的點(綠色的點)就是表達量顯著下調(diào)的基因,此外,一些關(guān)注的基因還會標出基因名稱。

03?MA plot和火山圖有什么區(qū)別?

MA plot看起來有點像躺著的火山圖。MA plot中,縱坐標logFC(在火山圖的介紹中已經(jīng)解釋過)是log2 (Fold Change),用于衡量基因表達上下調(diào);橫坐標則是logCPM?即log2(counts per million),用于衡量基因的表達量。

CPM即Counts Per Million,計算公式為CPM=C/N*1000000,設(shè)C為比對到 某個基因的 reads 數(shù)(read count),N 為比對到所有基因的總reads數(shù)。在某些情況下,我們只想了解每個基因被覆蓋到的相對reads數(shù),而不希望對其做長度校正,就會使用這個指標。

MA plot目前貌似還沒有一個中文譯名,但簡而言之,它的X軸是基因在兩個樣本中的豐度平均值,Y軸表示基因表達差異。相比之下,MA plot充分展示了基因豐度和表達變化之間的關(guān)系。我們可以看到,藍色兩條線的上方和下方,分別代表上下調(diào)差異表達基因;越靠右下或者右上的點,就是豐度越高而且變化幅度越大的基因。

04?為什么要做主成分分析?

我們通過測序獲得了大量的測量數(shù)據(jù),用于分析基因表達規(guī)律。多變量大樣本無疑會為我們的研究提供豐富的信息,但也在一定程度上增加了問題分析的復雜性,對分析帶來不便。因此需要找到一個合理的方法,在減少需要分析變量的同時,避免原有信息的損失,以達到對所收集數(shù)據(jù)進行全面分析的目的。

主成分分析便是一種降維的方法,它將多個變量簡化為少數(shù)、具有代表性的綜合變量,以便于對整體基因表達情況進行描述、分析。通過主成分分析可以更直觀的看到不同樣本的整體差異。


在上圖中,3種細胞(HCT116、MKN45、SGC7901,各3個重復)通過主成分分析,可以很明顯的聚成3類。

05 從熱圖尋找差異基因

熱圖(heatmap)是對實驗數(shù)據(jù)分布情況進行分析的直觀可視化方法,可以用來進行基因表達差異的全局展示,還可以對數(shù)據(jù)和樣品進行聚類。

熱圖中X軸表示不同樣本,Y軸表示不同基因,每一個小方格表示某個樣本的某個基因,方格的顏色表示基因的表達量的高低,如下圖所示,紅色表示高表達,綠色表示低表達,表達量越高或越低,顏色越紅或越綠。要找差異基因,只需比較同一基因在不同樣本對應(yīng)的顏色差異即可。

熱圖同時還給出了樣本和基因的聚類關(guān)系,如果關(guān)心樣本(或基因)在檢測到的表達量水平如何分類,相關(guān)關(guān)系如何,可以選擇相應(yīng)的條件聚類,也可以兩者都選擇。

由于完整的熱圖通常較大,不利于查找感興趣的基因,也不利于展示研究關(guān)注的基因??梢赃M一步將基因上下調(diào)差異較顯著的部分截取放大。


06?GO富集分析的作用

通過表達量分析,我們可以找到許多差異表達的基因,接下來想要找到這些差異基因的功能,可以對基因進行GO富集分析。

GO即Gene Ontology,http://www.geneontology.org,是一個將全世界所有與基因有關(guān)的研究結(jié)果進行分類匯總的綜合數(shù)據(jù)庫,利用GO 數(shù)據(jù)庫,可以對于一個或一組基因按照其參與的BP(Biological Process, 生物過程)、MF(Molecular Function, 分子功能) 及CC(Cellular Component, 細胞組分) 三個方面進行分類注釋。

GO注釋有助于理解基因背后的生物學意義,即差異表達基因與哪些生物學功能相關(guān)。通過尋找哪些差異表達基因?qū)儆谝粋€共同的GO功能分支,并用統(tǒng)計學方法檢驗結(jié)果是否具有統(tǒng)計學意義,從而得出差異表達基因主要參與了哪些生物功能或途徑。

07??KEGG Pathway富集分析

KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫,它有助于研究者把基因及表達信息作為一個整體網(wǎng)絡(luò)進行研究。

與GO分析法(應(yīng)用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學通路。通過KEGG Pathway顯著性富集能確定差異表達的基因參與了哪些生化代謝通路和信號轉(zhuǎn)導通路,并通過統(tǒng)計學方法計算哪些通路與基因表達的變化最為相關(guān)。

在上面這張KEGG pathway富集圖中,X軸表示富集的顯著性(用-log10(P value)表示,該值越大說明富集越顯著),Y軸表示富集的KEGG Terms(在GO富集圖中則為GO Term),圓點大小表示該KEGG pathway包含的差異基因數(shù)目,圓點深淺表示Rich factor(富集因子),也就是富集的程度(Rich factor=輸入的差異基因列表中富集到該pathway的基因數(shù)/該pathway的所有基因數(shù))。

通俗的說就是,橫軸越往右表示富集越顯著,縱軸代表不同的信號通路,點越大表示富集到該通路的基因越多。該圖表示與對照組相比,實驗組中多數(shù)差異表達基因以高顯著性富集到礦質(zhì)元素吸收這條通路,說明實驗組中某種處理主要影響了礦質(zhì)元素的吸收。

08?KEGG代謝通路圖

知道了差異表達基因主要富集到哪個通路之后,若想了解這些差異表達基因是如何影響這些通路所代表的代謝功能,我們可以對某一個代謝通路圖進行分析。

如下圖方框表示KEGG數(shù)據(jù)庫中對于該通路的所有基因,紅色標注為差異基因列表中富集到該特定生物學途徑的基因,綠色框的基因產(chǎn)物都屬于本次轉(zhuǎn)錄組所測物種含有的背景基因,白色框的基因產(chǎn)物表示不屬于本次所測物種的基因。


圖中小圓圈表示分子化合物(非蛋白),箭頭表示化學反應(yīng),虛線箭頭表示間接反應(yīng),+p、+u表示磷酸化、泛素化等修飾,具體如下圖所示。這樣就可以直接的看出差異表達基因是如何影響代謝功能了。


09? 總結(jié):我們能通過轉(zhuǎn)錄組測序獲得哪些信息?

1.不同樣品中差異表達的基因

2.不同樣品的差異表達背后是哪些生物學功能或途徑發(fā)生了變化

3.不同樣品的生物學功能是怎樣發(fā)生變化的(通過哪些通路調(diào)控)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容