使用熒光定量PCR進(jìn)行真核物種的基因表達(dá)量研究時(shí),經(jīng)常會(huì)遇到這樣一個(gè)問題:有些基因經(jīng)常存在多個(gè)轉(zhuǎn)錄變體,我該使用哪個(gè)轉(zhuǎn)錄本的序列進(jìn)行引物的設(shè)計(jì)呢?
1 什么是轉(zhuǎn)錄變體
要搞清楚這個(gè)問題,首先要從轉(zhuǎn)錄變體的來源講起。眾所周知,真核生物的基因是由外顯子及其中間的內(nèi)含子組成的,前體RNA經(jīng)過不同的“可變剪切”途徑,會(huì)形成不同外顯子的組合形式,從而最終導(dǎo)致不同蛋白亞型的形成。如下圖所示:

可以看到,不同結(jié)合位置的引物,檢測的RNA種類是不同的:引物對(duì)1能夠檢測到RNA變體1和2;引物對(duì)2能夠檢測到全部三個(gè)轉(zhuǎn)錄變體;引物對(duì)3能檢測到RNA變體2和3;引物對(duì)4僅能檢測到RNA變體1。
2 選擇哪個(gè)序列進(jìn)行引物設(shè)計(jì)?
對(duì)于究竟選擇哪一個(gè)變體去設(shè)計(jì)引物更加合適,不同的人有不同的做法:
① 選擇主要轉(zhuǎn)錄產(chǎn)物,如變體1,即默認(rèn)該基因的轉(zhuǎn)錄產(chǎn)物絕大多數(shù)為變體1,根據(jù)變體1的序列進(jìn)行引物設(shè)計(jì),即使引物無法檢測某個(gè)其他的轉(zhuǎn)錄變體(如引物1),也不會(huì)影響結(jié)果。
② 選擇所有轉(zhuǎn)錄產(chǎn)物的共有序列,將所有的轉(zhuǎn)錄產(chǎn)物序列進(jìn)行多重比對(duì)(Multiple Sequence Alignment),找到這些變體共同擁有的一整段序列,在該序列上進(jìn)行引物設(shè)計(jì)(如引物2),不管基因的轉(zhuǎn)錄產(chǎn)物是何種變體,都逃脫不了引物的結(jié)合,這樣,檢測到的才是該基因的完整表達(dá)情況。
③ 對(duì)每個(gè)轉(zhuǎn)錄變體進(jìn)行功能分析,有一些轉(zhuǎn)錄變體他們的功能是有差別的,有些研究者只需檢測某一種轉(zhuǎn)錄變體的變化,這樣,需要找到該轉(zhuǎn)錄變體相對(duì)于其他變體特有的一段序列(如上圖綠色序列),在這段序列中進(jìn)行引物設(shè)計(jì)(如引物4),這樣其他的轉(zhuǎn)錄變體無法被這對(duì)引物擴(kuò)增。
目前對(duì)于轉(zhuǎn)錄變體的選擇,主要是以上幾個(gè)策略。
3 如何快速查找轉(zhuǎn)錄變體的序列?
關(guān)于基因序列的查找可以點(diǎn)此鏈接《如何查找基因序列》。
如果基因有多個(gè)轉(zhuǎn)錄變體, 可以在基因頁面中找到多個(gè)NM號(hào),分別點(diǎn)擊進(jìn)去,就可以找到各轉(zhuǎn)錄變體的序列了。
以上這種方法適用于轉(zhuǎn)錄變體較少的情況,但如果基因的轉(zhuǎn)錄變體比較多,那么一個(gè)個(gè)點(diǎn)擊NM進(jìn)去找序列就會(huì)變得非常麻煩。如人的血管內(nèi)皮生長因子A基因(VEGFA)有20個(gè)轉(zhuǎn)錄變體,下面以human VEGFA基因?yàn)槔?,介紹一種較為簡單的方法:
1. 在NCBI主頁,搜索“VEGFA human”,注意此時(shí)數(shù)據(jù)庫需選擇gene,點(diǎn)擊Search。

2. 搜索結(jié)果中,會(huì)彈出如下預(yù)測框,里面含有該基因的基本信息,包括別稱,ID,基因頁面,轉(zhuǎn)錄產(chǎn)物頁面,蛋白頁面等等。

3. 點(diǎn)擊“RefSeq Transcript”,即進(jìn)入VEGFA的所有轉(zhuǎn)錄產(chǎn)物列表頁面:

- 點(diǎn)擊右上角“Send to”,選擇導(dǎo)出“Gene Features”,點(diǎn)擊“Create File”。會(huì)生成一個(gè)Sequences.txt文件,保存下來。

5. 打開該txt文件,里面即是所有轉(zhuǎn)錄變體的FASTA格式序列了。

找到了這些序列,下面的工作就是將這些序列進(jìn)行多重比對(duì),找到這些序列的共有(或特異)序列。
關(guān)于多重序列比對(duì),有基于網(wǎng)頁工具、基于本地軟件等多種方式。這些方式都可以直接用到上述的txt文件。
總體來說,基于網(wǎng)頁工具比較便捷,不需要預(yù)裝軟件,但結(jié)果判讀比較麻煩;基于軟件的方式在后續(xù)共有序列的選取方面要優(yōu)于網(wǎng)頁工具。
基于網(wǎng)頁工具的比對(duì)教程:Clustal Omega
Clustal Omega是歐洲生物信息研究所(EBI)開發(fā)的多序列比對(duì)排列工具,現(xiàn)已經(jīng)完全取代了之前ClustalW的地位。使用該工具不僅能夠?qū)NA或者蛋白質(zhì)進(jìn)行多序列比對(duì),并且可以自動(dòng)生成多種格式或構(gòu)建進(jìn)化樹等。
網(wǎng)址如下:https://www.ebi.ac.uk/Tools/msa/clustalo/
序列比對(duì)教程
1. 打開該網(wǎng)頁,選擇正確的序列類型,將之前得到的txt文件中的Fasta序列全部復(fù)制、粘貼到序列框中(以5條序列為例)。

2. 參數(shù)設(shè)置推薦默認(rèn)就好,點(diǎn)擊Submit:

3. 經(jīng)過一段時(shí)間等待,出現(xiàn)以下結(jié)果:

該結(jié)果將多個(gè)RNA按照同源序列重新進(jìn)行排列,其中,共有序列下方以*表示,而非同源區(qū)域則以--隔開。
4. 定位共有序列的區(qū)域
這樣,在比對(duì)結(jié)果中找到連續(xù)的*所對(duì)應(yīng)的位置(一定要連續(xù)的),就是這幾個(gè)轉(zhuǎn)錄變體的共有序列所在區(qū)域。
但是這種比對(duì)形式無法直接得到序列,可以將多行共有序列一一復(fù)制粘貼拼接在一起,也可以在任意一個(gè)轉(zhuǎn)錄變體中搜索共有序列的頭和尾一小段,中間的就是共有序列。
SnapGene是生工生物反復(fù)推薦過的核酸、蛋白序列分析、處理軟件,對(duì)于多序列的比對(duì)功能自然也是不在話下的。
下面以txt序列文件為基礎(chǔ),介紹一下詳細(xì)的多序列比對(duì)流程:
(txt文件怎么來的?在搜索欄中搜索“保守序列”,點(diǎn)此搜索)
1 打開SnapGene,直接將txt拖入snapgene起始界面。

2 SnapGene將自動(dòng)識(shí)別txt中的每個(gè)序列,并將其拆分成為單獨(dú)的序列文件,點(diǎn)擊“Import”,軟件將生成一個(gè)文件夾,文件夾中含有txt中的每一個(gè)FASTA序列。


3. 用SnapGene打開任意一個(gè)序列(推薦打開文件大小最大的),選擇Tools菜單欄中的“Align Multiple Sequences”功能(快捷鍵Ctrl+L)

4. 在彈出的窗口中,將剩下幾個(gè)序列都選中,點(diǎn)擊“打開”,SnapGene將對(duì)選中的序列進(jìn)行多重比對(duì):

5. 比對(duì)結(jié)果如下圖所示,在下方的Map標(biāo)簽頁,我們能夠看到這幾個(gè)轉(zhuǎn)錄變體同源及非同源區(qū)域所在的位置,非同源區(qū)域以空白或者三角顯示,同源序列以藍(lán)色顯示。

6. 點(diǎn)擊下方的Sequence標(biāo)簽頁,我們能夠看到具體的比對(duì)結(jié)果信息:

7. 我們可以用鼠標(biāo)選中綠色的區(qū)域,復(fù)制、粘貼就得到了這幾個(gè)轉(zhuǎn)錄變體的同源序列了。
參考:https://www.sangon.com/class_Conservative%20Sequence.html