DNA的分子結(jié)構(gòu)
20世紀(jì)初,科學(xué)界已經(jīng)認(rèn)識(shí)到染色體是遺傳物質(zhì)。發(fā)現(xiàn)染色體由DNA Deoxyribonucleic Acid 和蛋白質(zhì)構(gòu)成。但是,傾向于認(rèn)為蛋白質(zhì)是遺傳物質(zhì)。
1944年,Avery、Macleod等使用肺炎球菌的實(shí)驗(yàn)證實(shí)了,毒性光滑型肺炎球菌的“轉(zhuǎn)化因子”可以將部分無毒的粗糙型肺炎球菌轉(zhuǎn)化為毒性光滑型,從而證實(shí)DNA是轉(zhuǎn)化因子,是遺傳物質(zhì)。
這個(gè)實(shí)驗(yàn)非常重要,只要是與現(xiàn)代遺傳學(xué)、生物科學(xué)有關(guān)的書中都會(huì)列舉。實(shí)驗(yàn)的邏輯也被高度抽象為公式,在現(xiàn)代的分子生物學(xué)實(shí)驗(yàn)中反復(fù)出現(xiàn)。
1953年,Watson和Crick應(yīng)用精細(xì)的X射線晶體衍射數(shù)據(jù),推測(cè)出DNA的分子雙螺旋結(jié)構(gòu)。
DNA的基本成分是核苷酸 nucleotide,一個(gè)戊糖+一個(gè)堿基+三個(gè)磷酸構(gòu)成。
其中,磷酸分子鏈接一個(gè)戊糖的3‘碳原子,鏈接另一個(gè)戊糖的5’碳原子,以3‘,5’-磷酸二酯鍵 phosphodiester bond 將單個(gè)核苷酸鏈接為多核苷酸鏈。因此,每條鏈的一個(gè)末端為5‘末端 end,另一個(gè)為3’末端。
兩條多核苷酸鏈以反向平行的方式,互相纏繞構(gòu)成DNA雙螺旋大分子。一條鏈?zhǔn)?‘-3’,另一條是3‘-5’。
堿基則分為嘧啶和嘌呤兩種。嘌呤包括:腺嘌呤 adenine,A;鳥嘌呤 guanine,G;嘧啶包括:胞嘧啶 cytosine C;胸腺嘧啶 thymine T。二者可以形成堿基對(duì) base pair bp,彼此以氫鍵鏈接,維持兩條多核苷酸鏈互補(bǔ)及穩(wěn)定。G-C間3個(gè)氫鍵;A-T間2個(gè)氫鍵。
由于這種互補(bǔ)性 complementary ,DNA出現(xiàn)2種特點(diǎn):- 知道GC的含量比例,就可以估計(jì)某DNA的堿基組分的比例。
- 知道一條鏈的具體堿基構(gòu)成,就可以知道另一條鏈的。
遺傳信息保存在DNA鏈中堿基的一級(jí)結(jié)構(gòu) primary structure中。以下是一些約定的書寫格式:
- 一般按照DNA復(fù)制新鏈的方向5‘-3’來描述DNA的堿基序列
- 描述同一條鏈上的兩個(gè)相鄰的堿基時(shí),我們使用一個(gè)p代表連接的磷酸二酯鍵,如CpG
- 描述不同鏈的堿基對(duì)時(shí),我們直接寫為CG
Watson因此獲得諾貝爾獎(jiǎng),同時(shí)代,數(shù)個(gè)小組都試圖解決DNA的結(jié)構(gòu)問題,也有使用X射線的。但是,其人很幸運(yùn)。他青史留名了,其他人則消聲覓跡了。科學(xué)研究也是很殘酷的。
DNA的分子結(jié)構(gòu)有如下的意義:
- DNA鏈上,3個(gè)相鄰的堿基構(gòu)成了遺傳密碼的單位,4種堿基形成了4E3=64個(gè)遺傳密碼
- DNA的復(fù)制是一種半保留復(fù)制 semiconservative replication。這種復(fù)制方式使得DNA可以以互補(bǔ)鏈為模板修復(fù)主鏈
- 雙鏈互補(bǔ)性也是近代分子生物學(xué)技術(shù)的基礎(chǔ)
- 雙螺旋形成了兩個(gè)溝,其中大溝是DNA與蛋白質(zhì)相互作用的結(jié)構(gòu)基礎(chǔ)。轉(zhuǎn)錄因子的基序 motif 與大溝的DNA相互發(fā)揮作用
發(fā)現(xiàn)64個(gè)遺傳密碼時(shí),曾有人預(yù)言,生命的秘密將一覽無余。實(shí)際上,基因組計(jì)劃完成,科學(xué)家才發(fā)現(xiàn),離解開生命的秘密還早。TF原來是在大溝內(nèi)與DNA序列發(fā)揮作用。嘖嘖。。
人類所有的DNA構(gòu)成了人類基因組 genome,包括核基因組 nuclear genome 和 線粒體基因組 mitochondrial genome。
- 核基因組是指每個(gè)體細(xì)胞核中的父源或母源整套DNA,即每個(gè)細(xì)胞中有兩套。每個(gè)核基因組的DNA約有 3.2×10E9 bp。
- 線粒體基因組是指每個(gè)線粒體中的閉環(huán)雙鏈DNA,即線粒體DNA mitochondrial DNA mt DNA

按照不同的定義,基因有不同的分類方法:
基因序列和非基因序列
- 基因序列是基因組中決定蛋白質(zhì)的DNA序列,一端有起始密碼子ATG,一端有終止密碼子。二者之間的DNA序列稱為開放閱讀框 open reading frame,ORF。一個(gè)ORF就是一個(gè)基因。
- 非基因序列是指基因組中除基因以外的全部DNA序列,包括每個(gè)基因間的DNA序列 intergenic DNA
編碼序列和非編碼序列
- 編碼序列是指編碼蛋白質(zhì)的DNA序列,也就是基因中的外顯子序列
- 非編碼序列是基因中的 內(nèi)含子序列 和 基因間的序列
單一序列和重復(fù)序列
- 單一序列 unique sequence 是指基因組中只出現(xiàn)一次的DNA序列,即單拷貝DNA序列。多數(shù)基因?yàn)閱慰截愋蛄校灿卸嗫截愓?。非基因序列也有單一序列?/li>
- 重復(fù)序列 repetitive sequence 是指基因組中反復(fù)出現(xiàn)的DNA序列。在人類基因組中,60-70%是單拷貝-低拷貝的DNA序列,包括編碼蛋白的基因。30-40%是中度或高度重復(fù)DNA序列,將基因分隔開。
- 1 串聯(lián)重復(fù)序列 tandem repetitive sequence
指不同長度核苷酸序列的重復(fù)單位串聯(lián)在一起的高度重復(fù)序列。2-200bp,根據(jù)大小可進(jìn)一步分為:衛(wèi)星DNA,小衛(wèi)星DNA和微衛(wèi)星DNA。
1)衛(wèi)星DNA satellite DNA
由很大串聯(lián)重復(fù)DNA構(gòu)成,分布在100kb-數(shù)Mb的范圍。重復(fù)單位可以簡(jiǎn)短,可以復(fù)雜。主要位于染色體著絲粒異染色質(zhì)區(qū),不轉(zhuǎn)錄,其GC含量低于總基因組DNA,密度梯度離心呈現(xiàn)為主帶旁的小帶。
例:α衛(wèi)星是一個(gè)171bp重復(fù)單位串聯(lián)構(gòu)成,是著絲粒異染色質(zhì)的主體,含有特異著絲粒蛋白的結(jié)合位點(diǎn)。
2)小衛(wèi)星DNA mini satellite DNA
由重復(fù)單位在6-64個(gè)核苷酸的串聯(lián)重復(fù)序列構(gòu)成。這些序列分布于0.1-20kb的范圍內(nèi)。位于所有染色體的端粒,不轉(zhuǎn)錄。
例:
(1)高可變小衛(wèi)星 hypervariable minisattlite DNA,核心共享序列是GGGCAGGANG(N為任一核苷酸)。是人類細(xì)胞同源重組的熱點(diǎn)。
(2)染色體端粒DNA,3-20kb串聯(lián),六核苷酸重復(fù)單位,TTAGGG,由特異的端粒酶加上,擔(dān)負(fù)端粒的功能。
3)微衛(wèi)星DNA micro satellite DNA
由2-6個(gè)核苷酸為重復(fù)單位的串聯(lián)重復(fù)序列組成,數(shù)量多,分散于基因組中,又稱為短串聯(lián)重復(fù)序列 short tandem repeat STR。常構(gòu)成染色體著絲粒、端粒和Y染色體長臂的染色質(zhì)區(qū),大多由復(fù)制滑動(dòng)產(chǎn)生(?)。
雙核苷酸重復(fù)排列是最常見的類型,約占基因組的0.5% 。例:CA/TG 1/36kb;AT/TA 1/50kb;AG/CT 1/125kb;CG/GC 1/10Mb。因?yàn)镃pG雙核苷酸易于甲基化并隨后去氨基。
微衛(wèi)星DNA的意義不清楚,其多態(tài)性可作為遺傳學(xué)研究的遺傳標(biāo)記。
某些微衛(wèi)星DNA位于基因的編碼序列,因?yàn)橐子趶?fù)制滑動(dòng)而常為突變熱點(diǎn)。例:(CGG)n等三核苷酸重復(fù)的動(dòng)態(tài)突變是某些神經(jīng)肌肉系統(tǒng)疾病的原因。
- 1 串聯(lián)重復(fù)序列 tandem repetitive sequence
- 2 分散重復(fù)序列 interspersed repeated sequence
這是一種分布于基因組內(nèi)散在的重復(fù)序列。
按照序列的長短,分為 短分散核元件 short interspersed nuclear element,SINE;長分散核元件 long interspersed nuclear element,LINE。
1)SINE
長度在100-400bp,拷貝數(shù)達(dá)10E6以上。在人基因組中,SINE間的平均距離 2.2kb,分散在基因內(nèi)、基因間或基因簇內(nèi),甚至內(nèi)含子中也含有SINE,但外顯子中沒有。
例:Alu序列是人類基因組中含量最高的重復(fù)序列。282bp構(gòu)成,內(nèi)含限制性內(nèi)切酶Alu I的識(shí)別序列 AGCT(因此得名),約有50-70萬拷貝。它存在于人和一些靈長類基因組中,因而可以作為其重要標(biāo)記。
2)LINE
長度5000-7000bp,拷貝數(shù)達(dá)10E2-10E4.
例:Kpn I家族內(nèi)含限制性內(nèi)切酶Kpn I識(shí)別的序列,分散在基因組中。這些序列構(gòu)成可轉(zhuǎn)座元件 transposable elements,使DNA可以在基因組內(nèi)由一個(gè)染色體轉(zhuǎn)移到另一個(gè)染色體。
- 2 分散重復(fù)序列 interspersed repeated sequence
這個(gè)部分中,術(shù)語很多。其中 Alu 序列曾經(jīng)在文獻(xiàn)中讀過。非基因序列與非編碼序列相比,后者多個(gè)內(nèi)含子。重復(fù)序列中的多種定義需要牢記,越來越多的實(shí)驗(yàn)發(fā)現(xiàn),這些最初認(rèn)為是垃圾的序列有很重要的作用。---你需要記住,如果你想成為一名遺傳學(xué)家,或者遺傳咨詢師