2018-01-08有關(guān)5'UTR、CDS、Exon、Intron、3'UTR的幾個(gè)概念

蛋白質(zhì)編碼基因至少包含四個(gè)組件:TU, MODEL, EXON, CDS

? TU代表轉(zhuǎn)錄單位,是基因的最高順式元件。僅在可變剪接體存在時(shí)可編碼多個(gè)基因MODEL

? 基因MODEL封裝了單個(gè)剪接異構(gòu)體所有的的編碼和非編碼結(jié)構(gòu),每個(gè)基因MODEL可編碼剪接數(shù)個(gè)mRNA EXONS并代表基因剪接后無(wú)內(nèi)含子的部分。?

一個(gè)mRNA EXON可能僅部分編碼蛋白質(zhì),恰恰是上游或下游非編碼區(qū)存在時(shí)。每個(gè)EXON的蛋白質(zhì)編碼部分由CDS元件表示。CDS元件還編碼終止密碼子?;蚪M件不是根據(jù)它們的坐標(biāo)進(jìn)行排序的。

? 對(duì)于存在非翻譯區(qū)的區(qū)域,將出現(xiàn)UTR。UTR代表了RNA EXON的非蛋白質(zhì)編碼部分。目前,UTRs不支持該DTD以外的TIGR數(shù)據(jù)類(lèi)型,它們的存在僅為了便于外部數(shù)據(jù)分析。

5'UTR :region at the 5' end of a mature transcript (preceding the initiation codon) that is not translated into a protein

3'UTR: 3‘端非翻譯區(qū),也就是mRNA兩端的非編碼片段

順便介紹一下“轉(zhuǎn)錄本”(轉(zhuǎn)載解螺旋公共號(hào))

我們平常通過(guò)數(shù)據(jù)庫(kù)查找某個(gè)基因的相關(guān)信息時(shí),會(huì)發(fā)現(xiàn)該基因有多個(gè)轉(zhuǎn)錄本。為什么一個(gè)基因可以有多個(gè)轉(zhuǎn)錄本呢?轉(zhuǎn)錄本能干什么?

?轉(zhuǎn)錄本其實(shí)就是基因通過(guò)轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。

一個(gè)基因有可能有多個(gè)轉(zhuǎn)錄本,原因是由于不同的剪接方式造成的。我們都知道,基因轉(zhuǎn)錄之后,首先是形成前體mRNA,通過(guò)剪切內(nèi)含子連接外顯子,5’端加帽及3’端加尾之后形成成熟的mRNA。

但是在剪切的過(guò)程中可能會(huì)剪切掉外顯子,也有可能保留部分內(nèi)含子,這樣就形成了多種mRNA即多個(gè)轉(zhuǎn)錄本。

?舉個(gè)栗子:這是一個(gè)

三個(gè)外顯子兩個(gè)內(nèi)含子的基因結(jié)構(gòu)圖


該圖通過(guò)不同的剪接方式得到了四種mRNA即四種轉(zhuǎn)錄本(我只是列出了部分可能性),實(shí)際中可能該基因只具有其中的一種或兩種轉(zhuǎn)錄本,也有可能都具有。

我們需要特別注意的是大多數(shù)基因有多個(gè)轉(zhuǎn)錄本,而且有可能每個(gè)轉(zhuǎn)錄本都會(huì)編碼產(chǎn)生相應(yīng)的蛋白,這樣就有可能造成一個(gè)基因有多種功能。

我們平常研究某個(gè)基因時(shí)(該基因有多個(gè)轉(zhuǎn)錄本),其實(shí)我們研究的是它的其中一個(gè)轉(zhuǎn)錄本所編碼的蛋白的功能。雖然該基因有多個(gè)轉(zhuǎn)錄本,而且每個(gè)轉(zhuǎn)錄本都編碼蛋白,但是一般情況下它的不同的轉(zhuǎn)錄本分布在不同類(lèi)型的細(xì)胞中,當(dāng)然也有可能多種轉(zhuǎn)錄本同時(shí)存在于某一細(xì)胞中。

?那我們研究該基因時(shí)應(yīng)該怎么做呢?

首先,我們需要確定我們應(yīng)該研究該基因的哪個(gè)轉(zhuǎn)錄本。

因?yàn)槲覀兤匠Q芯磕硞€(gè)基因的功能的時(shí)候,是因?yàn)樵摶蛟谀骋惶囟ǖ慕M織和細(xì)胞中表達(dá),它在這些組織和細(xì)胞中具有特定的功能,所以我們只需要確定該基因的哪個(gè)轉(zhuǎn)錄本在這些組織和細(xì)胞中表達(dá)即可。

確定的方法當(dāng)然就是設(shè)計(jì)每種轉(zhuǎn)錄本特異性引物,然后通過(guò)RT-PCR就可知道哪種轉(zhuǎn)錄本在組織和細(xì)胞中特異性表達(dá)。那這個(gè)轉(zhuǎn)錄本就是我們接下來(lái)要研究的。

之所以要確定我們應(yīng)該研究哪個(gè)轉(zhuǎn)錄本,那是因?yàn)樗P(guān)系到引物的設(shè)計(jì)以及蛋白分子量的計(jì)算。

當(dāng)我們研究某個(gè)基因的功能時(shí),通常會(huì)抽提總的RNA,然后反轉(zhuǎn)錄得到cDNA,然后將cDNA連接到表達(dá)載體中轉(zhuǎn)化到原核或真核細(xì)胞中進(jìn)行表達(dá),然后進(jìn)行接下來(lái)的研究。

通過(guò)反轉(zhuǎn)錄獲得cDNA時(shí),引物的設(shè)計(jì)就是根據(jù)轉(zhuǎn)錄本設(shè)計(jì)的。而且之后我們會(huì)將表達(dá)的蛋白跑電泳后進(jìn)行分析,那蛋白的大小是如何計(jì)算的呢,當(dāng)然也是通過(guò)該轉(zhuǎn)錄本編碼的蛋白的氨基酸序列計(jì)算的啊。

至于轉(zhuǎn)錄本的查詢(xún),也非常簡(jiǎn)單。在pubmed gene一欄輸入目的基因,出現(xiàn)的頁(yè)面下拉,發(fā)現(xiàn)如下

CDS與ORF的區(qū)別?為什么CDS可以包括很多個(gè)開(kāi)放閱讀框?

1. 基因的編碼區(qū)(Coding region),亦稱(chēng)為“編碼序列”(Coding sequence)或“CDS”(Coding DNA Sequence),是指mRNA序列中編碼蛋白質(zhì)的那部分序列。

2. CDS也等同于ORF(open reading frame)是編碼蛋白質(zhì)的序列,以ATG開(kāi)始--終止密碼子結(jié)束。

CDS的定義是對(duì)的,即CDS是已知的一個(gè)基因上確確實(shí)實(shí)翻譯成蛋白質(zhì)的區(qū)段。

ORF則是指,任意一段序列,只要起于ATG止于終止子,都可以叫做ORF。ORF是一種預(yù)測(cè),而不是一種已知的翻譯區(qū)。即隨意寫(xiě)下一段DNA序列,只要以三個(gè)堿基為單位能找到ATG和終止子,就可以稱(chēng)作ORF,這段ORF甚至可能不是一段真正存在的DNA序列,但是它仍然是ORF。一段序列是可以有多個(gè)ORF的,只有當(dāng)ORF符合已知的可翻譯成蛋白的序列時(shí),才能等同于CDS。

圖片來(lái)自wiki

圖中序列為

ATGCAATGGGGAAATGTTACCAGGTCCGAACTTATTGAGGTAAGACAGATTTAA

假設(shè)這是某種基因的CDS。那么在這段序列中,由圖所示,會(huì)出現(xiàn)三種始于ATG終于終止子的片段,由于這三種都有可能翻譯成氨基酸,所以你可以說(shuō)這段序列有三種可能的ORF。但是在基因中真正翻譯出來(lái)的只有1,那么當(dāng)你說(shuō)這段基因的CDS的時(shí)候,只能是1.

1. 基因經(jīng)過(guò)轉(zhuǎn)錄形成Pre mRNA,這里面包含著內(nèi)含子和外顯子(5端是以外顯子打頭,但是這段外顯子不僅包含CDS,還包含5' UTR;3端是以外顯子結(jié)束,但是這段外顯子不僅包含CDS,還包含3' UTR),經(jīng)過(guò)剪接形成成熟mRNA,內(nèi)含子已減掉,如果拋開(kāi)后來(lái)加上去的cap和poly A的話,這時(shí)全是外顯子,但是不全是CDS,因?yàn)橹挥兄虚g的那部分以起始密碼子開(kāi)始、以終止密碼子結(jié)束的片段才是CDS,只有這部分才會(huì)被翻譯成蛋白質(zhì)。

2. CDS是指被翻譯成蛋白質(zhì)的片段(故而肯定是以起始密碼子開(kāi)始,以終止密碼子結(jié)束的片段),而ORF僅僅是指以起始密碼子開(kāi)始,以終止密碼子結(jié)束的片段,可以說(shuō)是潛在的CDS。

轉(zhuǎn)自丁香園:http://www.dxy.cn/bbs/topic/36728037

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容