轉(zhuǎn)錄組(transcriptome),額定類型細(xì)胞中全體轉(zhuǎn)錄本(transcript)的集合,是細(xì)胞特定時(shí)刻基因表達(dá)譜的一個(gè)快照(snapshot of expression profile)。
在轉(zhuǎn)錄組中,既包括編碼蛋白的信使RNA(mRNA),也包括不編碼蛋白的mirRNA,long non-coding RNA(lncRNA)等非編碼RNA。
這些RNA轉(zhuǎn)錄本彼此協(xié)同作用,共同來調(diào)控細(xì)胞的生長,發(fā)育,凋亡等一系列重要的生理過程。因此,對(duì)于轉(zhuǎn)錄本的研究通常包括定性和定量兩個(gè)方面。
Real-Time qRT-PCR通過對(duì)經(jīng)典PCR擴(kuò)增反應(yīng)中每一個(gè)循環(huán)產(chǎn)物熒光信號(hào)的實(shí)時(shí)檢測,我們可以實(shí)現(xiàn)對(duì)其實(shí)模板的定量分析。通過正確設(shè)定引物(primer)和探針(probe),qRT-PCR技術(shù)可以很大范圍內(nèi)定量的檢測目標(biāo)轉(zhuǎn)錄本的拷貝數(shù),也即表達(dá)水平。因此長被作為轉(zhuǎn)錄組分析中的金標(biāo)準(zhǔn)(Gold Standard).qRT-PCR只能測定一個(gè)轉(zhuǎn)錄本的表達(dá)水平,同時(shí)也需要知道待檢測轉(zhuǎn)錄本的序列,難以用來發(fā)現(xiàn)未知的轉(zhuǎn)錄本。
Microarray在高通量測序之前是主要的高通量轉(zhuǎn)錄本表達(dá)分析技術(shù)。
微陣列(microarray),也稱基因芯片(gene chip),通過將幾十萬個(gè)不等的探針(probe)分子固定在約1cm見方的固體片基上制成的。
利用核苷酸分子在形成雙鏈時(shí)堿基互補(bǔ)配對(duì)原理,microarray可以一次性檢測出樣本中所有與探針互補(bǔ)的核苷酸片段,從而快速得到樣本中基因的表達(dá)譜(expression profile),因此,microarray從上世紀(jì)90年代問世以來,在生物,醫(yī)學(xué),農(nóng)學(xué)等領(lǐng)域快速獲得了廣泛應(yīng)用。與qRT-PCR相比,micoarray雖然在通量上有了顯著的提高,但仍然需要實(shí)現(xiàn)確定待測轉(zhuǎn)錄本的序列。
EST(表達(dá)序列標(biāo)簽)技術(shù)通過對(duì)一個(gè)隨機(jī)選擇的cDNA克農(nóng)進(jìn)行單次測序來獲得cDNA的部分序列。與microarray不同,EST是基于測序的,并不需要事先知道待檢測轉(zhuǎn)錄本的序列??梢员挥脕戆l(fā)現(xiàn)新的轉(zhuǎn)錄本。
早在1991年,當(dāng)時(shí)還在NIH的Craig Venter等就開始利用EST來尋找人類的新基因。然而,由于當(dāng)時(shí)測序技術(shù)通量的限制,一次EST通常只能得到幾千個(gè)轉(zhuǎn)錄本的序列,遠(yuǎn)遠(yuǎn)無法進(jìn)行全轉(zhuǎn)錄本水平的profiling.
RNA-seq深度測序技術(shù)的出現(xiàn),使得研究人員首次可以,在全轉(zhuǎn)錄組水平利用測序技術(shù)同時(shí)進(jìn)行定量與定性的分析。
首先,對(duì)生物樣品中的RNA反轉(zhuǎn)錄為cDNA而后將這些cDNA打碎成較小片段后,上機(jī)測序。
一方面,RNA-seq技術(shù)使得研究人員可以快速確定轉(zhuǎn)錄本,進(jìn)而鑒定存在的可變剪切體(Alternative splicing isoform),這是傳統(tǒng)的microarray等技術(shù)很難做到的。
另一方面,對(duì)基因組特定位點(diǎn)上reads深度的計(jì)算,可以對(duì)表達(dá)量水平進(jìn)行估計(jì)。所以,RNA-seq技術(shù)使得研究人員可以同時(shí)對(duì)轉(zhuǎn)錄組進(jìn)行定性和定量的研究。需要注意的是,RNA-seq本質(zhì)上是對(duì)轉(zhuǎn)錄本序列的隨機(jī)抽樣(random sampling),因此,其檢測效力(power)和靈敏度(sensitivity)高度以來于測序深度。如果測序深度不夠,就難以檢測出低拷貝的基因。原則上,只有在飽和曲線(saturation curve)達(dá)到平臺(tái)期(plateau)后,才能認(rèn)為深度足夠。對(duì)于哺乳動(dòng)物轉(zhuǎn)錄組來說,一個(gè)經(jīng)驗(yàn)規(guī)則是通常要做到100-150X的coverage

在隨機(jī)抽樣的情況下(random sampling)情況下,map到轉(zhuǎn)錄本上的read數(shù)目正比于其表達(dá)量(transcript abundance),因此,我們可以利用落在某個(gè)轉(zhuǎn)錄本上reads的總數(shù)目來估計(jì)其表達(dá)量。
但另一方面,落在一個(gè)轉(zhuǎn)錄本上reads的書面,也于其長度和總測序深度成正比。例如有A,B兩個(gè)基因,假定他們表達(dá)量相同,都轉(zhuǎn)錄2個(gè)轉(zhuǎn)錄本,但是A的長度是B的兩倍,那么map到A的熱啊但是數(shù)目就是map到B的reads數(shù)目的兩倍。如果我們只是看這些reads的數(shù)目,我們會(huì)認(rèn)為A的表達(dá)量是B的兩倍,但這顯然是不對(duì)的。

通量,測序深度。
所以,我們?cè)趯?shí)際分析中,通常會(huì)將原始的reads數(shù)目(raw reads count)利用線性放縮(scaling),轉(zhuǎn)換為RPKM值來進(jìn)行歸一化(normalization)處理。

RPKM就是一個(gè)常用的歸一化的方法。
這個(gè)公式里面的C是貼到這段轉(zhuǎn)錄本上reads的總數(shù)目,N是這次試驗(yàn)總reads數(shù)目(也就是測序深度),L是這段學(xué)列的長度。在假定不同樣本中RNA總體分布一致的前提下,RPKM就可以正確處理由于轉(zhuǎn)錄本長度和測序深度引起的artifact,從而使得來自不同基因,不同sequencing run乃至不同樣本之間的表達(dá)數(shù)據(jù)彼此之間可以比較。需要注意的是,RPKM并不是唯一的歸一化方法。通過考慮不同的誤差因素(bias effectors),引入不同的生物學(xué)假設(shè),可以構(gòu)造不同的歸一化方法。
事實(shí)上,已有研究表明,相比于后續(xù)提出的TMM,DESeq等方法,RPKM方法在樣本差異基因表達(dá)檢驗(yàn)等分析中的效果不是最理想。另一個(gè)需要在RNA-Seq技術(shù)中引起注意的地方是鏈特異性(strand-specific)。我們知道,DNA的兩條鏈都可以轉(zhuǎn)錄,形成不同的轉(zhuǎn)錄本,然而,常用的Illumina RNA-Seq kit是不分鏈的,也就是說,我們無法知道配對(duì)的reads哪個(gè)方向和轉(zhuǎn)錄本是一致的,那個(gè)和轉(zhuǎn)錄本方向互補(bǔ)。對(duì)于分鏈的數(shù)據(jù),又有兩種不同的情況。在利用dUTP技術(shù)進(jìn)行標(biāo)記(labeling)的方法–也就是illumina的strand-specific kit 使用的方法中,第二個(gè)read和轉(zhuǎn)錄本方向一致,的一個(gè)read和轉(zhuǎn)錄本反向互補(bǔ)。在另一種SOLID等平臺(tái)常用的secondstrand分鏈方法中,就剛好反過來了。因此在分析之前,我們一定要弄清楚自己的數(shù)據(jù)有沒有分鏈,是怎樣分鏈的。
參考資料:
此博文內(nèi)容來自高歌老師的講課