轉(zhuǎn)錄組學(xué)(Transcriptomics),是一門在真整體水平上研究細(xì)胞中基因轉(zhuǎn)錄的情況及轉(zhuǎn)錄調(diào)控規(guī)律的學(xué)科,從RNA水平研究基因的表達(dá)情況。轉(zhuǎn)錄組測(cè)序是通過(guò)二代測(cè)序平臺(tái)快速全面地獲得某一物種特定細(xì)胞或組織在某一狀態(tài)下的幾乎所有的轉(zhuǎn)錄本及基因序列,可以用來(lái)研究基因表達(dá)量、基因功能、結(jié)構(gòu)、可變剪接和預(yù)測(cè)新的轉(zhuǎn)錄本等等。轉(zhuǎn)錄組(transcriptome),是指特定生長(zhǎng)階段某組織或細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,狹義上指所有mRNA的集合。
轉(zhuǎn)錄組測(cè)序類型
1. 根據(jù)RNA種類
可以分為mRNA測(cè)序,SmallRNA測(cè)序,LncRNA測(cè)序、CircRNA測(cè)序、全轉(zhuǎn)錄組測(cè)序等
2. 根據(jù)物種特點(diǎn)
比如真核生物或者原核生物,是否有參考基因組,測(cè)序平臺(tái)的不同,分為真核有參和無(wú)參轉(zhuǎn)錄組測(cè)序,原核轉(zhuǎn)錄組測(cè)序,全長(zhǎng)轉(zhuǎn)錄組測(cè)序等
3. 根據(jù)相互關(guān)系
分為互作轉(zhuǎn)錄組,比較轉(zhuǎn)錄組等等;
此外,基因組甲基化會(huì)影響到基因的轉(zhuǎn)錄調(diào)控,也屬于轉(zhuǎn)錄調(diào)控測(cè)序范疇;還有用于研究轉(zhuǎn)錄因子與DNA的交互作用或組蛋白修飾在基因組上的分布的ChIP-Seq,研究RNA與蛋白互作關(guān)系的RIP-Seq,以及研究RNA甲基化的MeRIP-Seq等。
應(yīng)用領(lǐng)域

術(shù)語(yǔ)概念
基本的術(shù)語(yǔ)介紹:
- 轉(zhuǎn)錄本:是由一條基因通過(guò)轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。
- PE 150/SE 150:PE(Pair end)為雙端測(cè)序的意思,測(cè)序文庫(kù)中的一條序列從兩端開始讀取,得到read 1與read 2,即通常所說(shuō)的R1與R2。SE(Single end)為單端測(cè)序的意思,即一條序列從一端讀取。這里的150為150bp的意思,即讀取150bp長(zhǎng)度的測(cè)序模式。
- Read:測(cè)序得到的每一條序列稱為一個(gè) Read。
- Raw Data/ Raw Reads:測(cè)序下得到的原始圖像數(shù)據(jù)經(jīng)過(guò)base calling轉(zhuǎn)化而來(lái)的機(jī)的原始數(shù)據(jù)。
- Clean Data / Clean Reads:去除接頭和低質(zhì)量 Reads 后的數(shù)據(jù),后續(xù)分析均基于Clean Data。統(tǒng)計(jì)指標(biāo)為Q20/Q30的值,一般平均質(zhì)量分?jǐn)?shù)< Q20,
- 接頭/ Adapter:接頭是測(cè)序時(shí)在序列兩端分別加上的一段人工序列,接頭上含有與測(cè)序引物互補(bǔ)結(jié)合的序列,通過(guò)和測(cè)序引物結(jié)合來(lái)對(duì)目的片段進(jìn)行測(cè)序。當(dāng)加上接頭后的序列片段比實(shí)際測(cè)序讀長(zhǎng)短時(shí), 3’端會(huì)測(cè)到接頭序列,接頭序列在分析之前需要去除掉。
- RPKM:Reads Per Kilobase of exon modelper Million mapped reads (每千個(gè)堿基的轉(zhuǎn)錄每百萬(wàn)映射讀取的reads),主要用來(lái)對(duì)單端測(cè)序(single-end RNA-seq)進(jìn)行定量的方法。
- FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千個(gè)堿基的轉(zhuǎn)錄每百萬(wàn)映射讀取的fragments),主要是針對(duì)pair-end測(cè)序表達(dá)量進(jìn)行計(jì)算(公式算法基本與上述RPKM一致,兩種都是RNAseq中常見的標(biāo)準(zhǔn)化方法,除此還有其他標(biāo)準(zhǔn)化方法后續(xù)會(huì)再單獨(dú)介紹)。
- 模糊堿基/ N:測(cè)序中不能確定的堿基,以N表示。一條序列中 N 越多說(shuō)明該序列質(zhì)量越低,一般該種序列需要剔除掉。
- Read count:比對(duì)到一個(gè)基因上的 Reads 數(shù)目。
- P value:顯著性,統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的P 值,一般以P < 0.05 為顯著, P <0.01 為非常顯著,其含義是樣本間的差異由抽樣誤差所致的概率小于0.05 或0.01。
- 差異倍數(shù)(Fold change):fold change翻譯過(guò)來(lái)就是倍數(shù)變化,假設(shè)A基因表達(dá)值為1,B表達(dá)值為3,那么B的表達(dá)就是A的3倍。一般我們都用count、TPM或FPKM來(lái)衡量基因表達(dá)水平,所以基因表達(dá)值肯定是非負(fù)數(shù),那么fold change的取值就是(0, +∞)。
- log2 Fold Change:同一基因在兩個(gè)樣品中的表達(dá)量之商取2的對(duì)數(shù),即log2(sampleA/sampleB)。
注意:
為什么我們經(jīng)常看到差異基因里負(fù)數(shù)代表下調(diào)、正數(shù)代表上調(diào)?因?yàn)槲覀冇昧薼og2 fold change。當(dāng)expr(A) < expr(B)時(shí),B對(duì)A的fold change就大于1,log2 fold change就大于0(見下圖),B相對(duì)A就是上調(diào);當(dāng)expr(A) > expr(B)時(shí),B對(duì)A的fold change就小于1,log2 fold change就小于0。通常為了防止取log2時(shí)產(chǎn)生NA,我們會(huì)給表達(dá)值加1(或者一個(gè)極小的數(shù)),也就是log2(B+1) - log2(A+1).

為什么不直接用表達(dá)之差,差直接有正負(fù)啊?假設(shè)A表達(dá)為1,B表達(dá)為8,C表達(dá)為64;直接用差B相對(duì)A就上調(diào)了7,C就相對(duì)B上調(diào)了56;用log2 fold change,B相對(duì)A就上調(diào)了3,C相對(duì)B也只上調(diào)了3. 通過(guò)測(cè)序觀察我們發(fā)現(xiàn),不同基因在細(xì)胞里的表達(dá)差異非常巨大,所以直接用差顯然不合適,用log2 fold change更能表示相對(duì)的變化趨勢(shì),但是呢雖然大家都在用log2 fold change,但顯然也是有缺點(diǎn),這里給大家推薦個(gè)鏈接看下,作者解釋的很詳細(xì)~
- 另外我們也要具備基本分子生物學(xué)常識(shí)如轉(zhuǎn)錄、翻譯的過(guò)程(中心法則),以及何為外顯子,內(nèi)含子,前體RNA,CDS,ORF這些概念,這些課本或網(wǎng)上都有介紹,不再過(guò)多贅述。
中心法則

前體RNA

關(guān)系:

流程
測(cè)序流程
- 樣品RNA準(zhǔn)備
- 測(cè)序文庫(kù)構(gòu)建
- DNA成簇(Cluster)擴(kuò)增
- 高通量測(cè)序(Illumina)
- 數(shù)據(jù)分析

鏈特異性建庫(kù)(了解)
目前構(gòu)建鏈特異性文庫(kù)的方法有多種,其中用的最普遍的是dUTP方法,跟普通建庫(kù)方式相比,鏈特異性建庫(kù)會(huì)在第二鏈 cDNA 合成時(shí),用dUTP代替dTTP,加接頭后用UDGase處理,降解掉有U的第二條cDNA,這樣使得測(cè)序后的數(shù)據(jù)可以確定鏈的方向性,從而可以判斷轉(zhuǎn)錄本是來(lái)自正義還是反義DNA鏈。與普通轉(zhuǎn)錄組測(cè)序相比,它能更準(zhǔn)確地統(tǒng)計(jì)轉(zhuǎn)錄本的數(shù)量和確定基因的結(jié)構(gòu)。推薦個(gè)帖子感興趣的可以學(xué)習(xí)一下該建庫(kù)方式的原理
下面通過(guò)這張建庫(kù)示意圖來(lái)看看普通RNA-Seq建庫(kù)和鏈特異性建庫(kù)的差異在什么地方

數(shù)據(jù)分析流程

數(shù)據(jù)量大小
轉(zhuǎn)錄調(diào)控測(cè)序所需的數(shù)據(jù)量隨項(xiàng)目類型不同而有所差異,數(shù)據(jù)量還與基因組大小、復(fù)雜度有關(guān)目前,為保證數(shù)據(jù)分析結(jié)果的可靠性和準(zhǔn)確性,對(duì)于Illumina平臺(tái)、PacBio平臺(tái):
真核轉(zhuǎn)錄組測(cè)序推薦采用6Gb 數(shù)據(jù)量進(jìn)行后續(xù)分析,如果想檢測(cè)到更低豐度的轉(zhuǎn)錄本,推薦采用8-10Gb數(shù)據(jù)量;
原核生物轉(zhuǎn)錄組,推薦采用4Gb數(shù)據(jù)量進(jìn)行后續(xù)分析;
關(guān)注點(diǎn)
轉(zhuǎn)錄組的分析大致有以下幾種情況:
- 同一物種在發(fā)育過(guò)程中的各時(shí)間節(jié)點(diǎn)的基因表達(dá)特點(diǎn)及存在的差異;
- 不同品系之間存在的差異表達(dá)基因;
- 不同的外界條件處理,如細(xì)菌、真菌、病毒、光照、紫外、干旱、高溫、高鹽脅迫,對(duì)基因表達(dá)的影響;
- 同一個(gè)體,不同組織之間的基因表達(dá)差異。
其他常見問(wèn)題
生物學(xué)重復(fù)問(wèn)題
生物學(xué)差異是基因自身表達(dá)的特性,與檢測(cè)技術(shù)的選擇以及數(shù)據(jù)處理的方式無(wú)關(guān),如果沒有生物學(xué)重復(fù),或者生物學(xué)重復(fù)的數(shù)量不夠,就不能得到有統(tǒng)計(jì)意義的實(shí)驗(yàn)結(jié)果。獲得的差異表達(dá)基因很可能僅僅是少數(shù)個(gè)體差異的表現(xiàn),并不能反映疾病或者某種特定生理狀態(tài)的群體本質(zhì)特征,并且有些審稿人會(huì)很在意生物學(xué)重復(fù)這個(gè)問(wèn)題。
- 對(duì)于動(dòng)植物樣品,建議5個(gè)以上生物學(xué)重復(fù),對(duì)生物學(xué)樣品之間做相關(guān)性檢驗(yàn),提高實(shí)驗(yàn)結(jié)果的可信度。
- 對(duì)于細(xì)胞樣品,生物學(xué)重復(fù)之間的差異性相對(duì)較小,建議3個(gè)以上生物學(xué)重復(fù)。
- 對(duì)于臨床樣品,由于供試者的基因型、生活方式、生活環(huán)境、年齡、性別可能存在差異,需要更多的生物學(xué)重復(fù),一般要求10個(gè)生物學(xué)重復(fù)以上。
對(duì)于有無(wú)生物學(xué)重復(fù)后續(xù)計(jì)算差異基因時(shí)候算法也是不同的,目前主流差異分析軟件DEseq2,limma,edgeR等基本都是針對(duì)有重復(fù)的轉(zhuǎn)錄組數(shù)據(jù)。至于沒有重復(fù)的轉(zhuǎn)錄組數(shù)據(jù),edgeR包中其實(shí)也有一種方法去計(jì)算,或者我們可以簡(jiǎn)單算兩組的fold change然后根據(jù)閾值去篩選,另外同濟(jì)大學(xué)之前也發(fā)布過(guò)一款軟件GFOLD軟件可以針對(duì)無(wú)重復(fù)數(shù)據(jù)計(jì)算(后續(xù)再說(shuō))。
差異倍數(shù)很大但P值>0.05不顯著
對(duì)于差異倍數(shù)較大,但P值也較大,差異不顯著的原因,可能有兩個(gè):
- 生物學(xué)重復(fù)不好,即生物學(xué)個(gè)體之間差異比較大,從統(tǒng)計(jì)學(xué)角度講,就是同一個(gè)基因在組內(nèi)的差異較大,誤差線比較大,這樣往往差異不顯著。比如,某個(gè)基因在A組的三個(gè)生物學(xué)重復(fù)的表達(dá)量分別為100、200、300,在另一組中為110、150、30,雖然平均值差異倍數(shù)大于2,但因?yàn)榻M內(nèi)重復(fù)不好,可能會(huì)導(dǎo)致無(wú)差異;而另外一個(gè)基因,在一組中為100、110、120,另一組為45、50、55,可能就是顯著差異的。
- BaseMean值比較低,即基因的豐度比較低,比如某個(gè)基因,在A組中的表達(dá)量均值為16,在B中的平均表達(dá)量為2,雖然差了8倍,但由于豐度低,可信度就低,很有可能也會(huì)判定為無(wú)差異。
解決方法:
- 對(duì)于第一種情況,盡量控制單一變量,比如取同一性別,同一親本,同一發(fā)育時(shí)期的小鼠,并增加生物學(xué)重復(fù);
- 對(duì)于第二種情況,建議增加數(shù)據(jù)量。
差異基因數(shù)目過(guò)多或者過(guò)少
通常差異基因的鑒定標(biāo)準(zhǔn)為|log2 Fold Change|>1,即差異倍數(shù)在兩倍以上,以及 P value<0.05。當(dāng)獲得的差異基因數(shù)目較多,造成分析困難,想挖掘差異更顯著的差異基因時(shí),可以將我們的閾值調(diào)整的更加嚴(yán)格,例如 |log2 Fold Change|>2,P value < 0.01等;當(dāng)我們獲得的差異基因較少時(shí),我們可適當(dāng)放寬鑒定閾值,例如 |log2Fold Change| > 0.5,但是P值需小于0.05才有顯著意義。
為什么不同基因ID有著相同的蛋白注釋?且為什么有相同蛋白注釋信息的基因有的上調(diào)表達(dá)有的下調(diào)表達(dá)?
這是在分析結(jié)果中比較多見的現(xiàn)象,主要原因有兩個(gè):
- 多因一能:不同的基因通過(guò)注釋具有相同的功能,而不同的基因其差異情況并不一樣;
- 許多酶是復(fù)合物:組成酶的復(fù)合物包含了一個(gè)家族的多個(gè)基因和不同的調(diào)控因子,它們之間的調(diào)控機(jī)制尚不清楚,反映在圖上會(huì)有部分上調(diào),部分下調(diào)。
如何選取qPCR定量驗(yàn)證基因
- 根據(jù)GO或者是KEGG富集結(jié)果,或者是科研人員關(guān)注的基因,選取有代表性的進(jìn)行qRT-PCR驗(yàn)證。
- 根據(jù)FPKM值,選擇FPKM值差異倍數(shù)大,同時(shí)P值小的基因進(jìn)行qRT-PCR驗(yàn)證。
qPCR結(jié)果和轉(zhuǎn)錄組測(cè)序結(jié)果不一致
RNA測(cè)序后,往往需要通過(guò)qPCR來(lái)進(jìn)行驗(yàn)證。由于這兩種實(shí)驗(yàn)的目的都是在檢測(cè)基因的相對(duì)表達(dá)量。用qPCR驗(yàn)證的目的,是為了檢測(cè)轉(zhuǎn)錄組測(cè)序結(jié)果的準(zhǔn)確性。我們要求轉(zhuǎn)錄組和qPCR的結(jié)果趨勢(shì)一樣,比如轉(zhuǎn)錄組中顯著上調(diào),qPCR中也是顯著上調(diào)。一般推薦先盡量多做幾個(gè),拿20-40個(gè)基因進(jìn)行qPCR驗(yàn)證,因?yàn)椴灰欢總€(gè)基因都會(huì)符合,盡管最后有幾個(gè)不符合轉(zhuǎn)錄組的結(jié)果,我們舍去也無(wú)所謂,注意選取的基因盡量表達(dá)量不要太低,如果太低,無(wú)論轉(zhuǎn)錄組還是qPCR的準(zhǔn)確性都會(huì)有所下降。
qPCR結(jié)果和轉(zhuǎn)錄組測(cè)序結(jié)果不一致,要考慮以下幾個(gè)問(wèn)題:
- 用于做轉(zhuǎn)錄組的樣品和做qPCR的樣品是同一個(gè)樣品嗎?不同生物學(xué)個(gè)體,雖然同樣的處理,但個(gè)體差異也會(huì)導(dǎo)致不同。
- 樣品在-80℃冰箱保存的時(shí)間或在液氮中保存的時(shí)間一樣嗎?且保存方式是否一樣?即使同一個(gè)樣品,保存時(shí)間與保存方式差異較大,也會(huì)有影響。
- 樣品之間是否弄反?例如對(duì)照與處理之間,以及不同處理之間的樣品是否出現(xiàn)弄亂的可能。
- 是否嘗試過(guò)相同條件處理?不同批次的qPCR的測(cè)序?即使是相同處理,不同批次的qPCR結(jié)果也很可能不同,還有可能是由于生物個(gè)體之間本身的差異;
- 所選的基因是否豐度很低?如果豐度偏低,轉(zhuǎn)錄組測(cè)序和qPCR測(cè)序的結(jié)果都會(huì)受到影響。
- qPCR操作是否規(guī)范。定量實(shí)驗(yàn)對(duì)實(shí)驗(yàn)人員的操作,試劑的質(zhì)量,實(shí)驗(yàn)環(huán)境都有著嚴(yán)格的要求。還有可能發(fā)生同一人員操作,得到兩次的定量結(jié)果互相不一致的情況。
- 引物設(shè)計(jì)是否合理。在RNA-Seq中大多數(shù)基因會(huì)包含不止一個(gè)轉(zhuǎn)錄本,甚至有一些特別復(fù)雜的轉(zhuǎn)錄本形式,如果設(shè)計(jì)引物不合理就會(huì)使qPCR結(jié)果不準(zhǔn),還可能會(huì)有假基因的干擾。所以,qPCR的引物盡可能全都設(shè)計(jì)在基因的轉(zhuǎn)錄本共有外顯子上,別是某些特定轉(zhuǎn)錄本的;引物設(shè)計(jì)好以后可以到NCBI做Primer Blast,保證引物不會(huì)Blast到一些基因組上的假基因上,避免假基因表達(dá)的干擾。
- 兩種技術(shù)本身的差異。轉(zhuǎn)錄組測(cè)序與定量實(shí)驗(yàn),都是檢測(cè)基因表達(dá)情況的有效手段,但是兩種技術(shù)在原理與方法上是不一樣的,本身會(huì)存在一定概率結(jié)果不一致的可能。轉(zhuǎn)錄組測(cè)序一般是對(duì)基因進(jìn)行定量,即所有來(lái)源于該基因的轉(zhuǎn)錄本的reads均歸入該基因,而我們qPCR的設(shè)計(jì)的引物擴(kuò)增片段有可能不能代表所有的轉(zhuǎn)錄本
好了,我們先說(shuō)這么多,內(nèi)容參考自《轉(zhuǎn)錄組學(xué)與多組學(xué)整合研究指南》,內(nèi)容比較豐富,適合新手入門了解。電子書可搜索關(guān)注本人公眾號(hào)BioparaMeta 回復(fù) ‘干貨’ 中(轉(zhuǎn)錄組鏈接)獲取,除轉(zhuǎn)錄組也有宏基因組,單細(xì)胞轉(zhuǎn)錄組及編程資料可以獲取,歡迎關(guān)注~~
