基因是一段有遺傳效應(yīng)的DNA(或者說是一段有遺傳效應(yīng)的脫氧核糖核苷酸序列),基因在染色體是線性排列的(就像點在線上),染色體是由DNA和蛋白質(zhì)組成。
脫氧核糖核苷酸排列成的核酸是DNA(一般是雙鏈),核糖核苷酸排列成的核酸是RNA(一般是單鏈),兩種都是核酸。
基因(DNA)記載著蛋白質(zhì)上的氨基酸排列順序,而DNA要通過RNA(mRNA)的轉(zhuǎn)錄和tRNA的翻譯才產(chǎn)生蛋白質(zhì)。氨基酸排列成組成多肽,多肽被修整成蛋白質(zhì)。
蛋白質(zhì)是由一系列所謂的“氨基酸”分子構(gòu)建的三維大分子。通常20種氨基酸可形成蛋白質(zhì),這些氨基酸可以被蛋白質(zhì)序列“字母表”中的字母所標記,其中每個字母都是一個氨基酸。

下面是一段蛋白質(zhì)序列的例子:
ARNDCEQGHILKMFPSTWYZ
通常DNA和mRNA攜帶遺傳信息,但是蛋白質(zhì)卻是生命體中的實際上的基礎(chǔ)。每個生物體都是由蛋白質(zhì)構(gòu)成的,并通過不斷產(chǎn)生的蛋白質(zhì)的相互作用而起作用。

第一步是轉(zhuǎn)錄,遺傳信息由DNA經(jīng)轉(zhuǎn)錄轉(zhuǎn)移到mRNA中,第二步是翻譯,根據(jù)遺傳密碼的中心法則,將成熟的mRNA分子中“堿基的排列順序”(核苷酸序列)解碼并生成對應(yīng)的特定氨基酸序列。
翻譯的具體過程為: mRNA被分成三個連續(xù)字母的單位,每個字母被稱為密碼子(codon),然后將密碼子經(jīng)由翻譯表翻譯成氨基酸,因此我們可以說蛋白質(zhì)是氨基酸序列。
根據(jù)對應(yīng)的遺傳密碼表,密碼子翻譯成氨基酸。例如,密碼子TCA,對應(yīng)編碼S,即氨基酸絲氨酸。密碼子有64種,但只有20個氨基酸。
因為一些密碼子能翻譯成相同的氨基酸,這被稱為密碼子簡并性。例如: CGU、CGC、CGA、CGG、AGA、AGG --> Arg
蛋白編碼基因的注釋

如上圖所示:蛋白質(zhì)編碼基因的功能注釋可以分為個層次(結(jié)構(gòu)、功能、生物學路徑)。
第一層次蛋白編碼基因結(jié)構(gòu)分析(Structure):
直向同源物(使用Blast)例如: Blast可以用來發(fā)現(xiàn)特定于腦膜炎奈瑟氏球菌與其他密切相關(guān)的奈瑟氏球菌物具有高度的同源性。
調(diào)控蛋白(使用P2RP)例如: P2RP(預(yù)測的原核調(diào)節(jié)蛋白)可以用來確定蛋白質(zhì)是一種調(diào)節(jié)蛋白。 P2RP是一種基于網(wǎng)絡(luò)的框架,用于鑒定和分析原核生物基因組中的調(diào)節(jié)蛋白。
信號肽和跨膜蛋白(使用SignalP、Phobius、Philius)例如: Philius可以用來預(yù)測蛋白質(zhì)是否是跨膜蛋白。我們還使用Phobius,它是一種組合的跨膜和信號肽預(yù)測因子。
結(jié)構(gòu)域和基序(使用CD
Search、Interproscan):
Interproscan,它像Blast2Go一樣,提供基于同源性和GO術(shù)語的注釋,但是基因HMM的算法,并且依賴于更多來源的注釋:Gene3D、Superfamily、PIRSF、TIGER、Panther、Pfam、SMART、PRINTS、HAMAP、ProSite、ProDom。Interproscan識別蛋白質(zhì)家族結(jié)構(gòu)域,基序和功能位點。
第二個層次蛋白編碼基因功能分析(Function):
操縱子屬于共調(diào)節(jié)蛋白家族。這些蛋白質(zhì)組在進化選擇期間是高度保守的,并且在相同方向上彼此相鄰。它們不會被啟動子或終止子分開,因為它們被表達為形成整體功能系統(tǒng)。
使用OperonDB,它主要計算每個保守的基因?qū)烙嫽颍欠駥儆谕粋€操縱子的概率。該算法考慮到幾個替代可能性,如在共同祖先相鄰的無關(guān)功能,被隔離的可能性,或由于基因?qū)Φ乃睫D(zhuǎn)移。
第三個層次蛋白編碼基因途經(jīng)分析(Pathway):
蛋白質(zhì)相互作用和細胞中涉及的途徑對于獲得基因組的整體上的功能很重要。運用所得到信號和代謝途徑,我們將可以可視化生物合成。通路將用于檢查基因在特定生物系統(tǒng)中預(yù)測好壞的程度。路徑分析中的主要工具如下:? Blast2GO和KASS。
Blast2GO查找同源序列,映射以檢索GOterm和注釋,以選擇相應(yīng)可靠的功能。
KASS 通過與人工注釋的KEGG GENES數(shù)據(jù)庫相比對,該方法基于序列相似性,雙向最佳比對結(jié)果,獲得了高度的準確性。
蛋白質(zhì)與NGS相結(jié)合和相關(guān)應(yīng)用
NGS被應(yīng)用于多組學研究的各個領(lǐng)域。在表觀表觀遺傳學方面,有用來分析組蛋白修飾的染色質(zhì)免疫沉淀測序(CHIP-Seq)。在蛋白質(zhì)組學方面,有蛋白質(zhì)間的相互作用的酵母雙雜交測序(Y2H-seq)。

研究體內(nèi)蛋白質(zhì)與DNA的相互作用,也稱結(jié)合位點分析法。即在生理狀態(tài)下把細胞內(nèi)的DNA與蛋白質(zhì)交聯(lián)在一起,通過超聲處理將染色質(zhì)切為小片段后,利用抗原抗體的特異性識別反應(yīng),將與目的蛋白相結(jié)合的DNA片段沉淀下來,以富集存在組蛋白修飾或者轉(zhuǎn)錄調(diào)控的DNA片段,通常用于轉(zhuǎn)錄因子結(jié)合位點或組蛋白特異性修飾位點的研究。
CHIP-Seq的原理
首先通過染色質(zhì)免疫共沉淀技術(shù)(CHIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對其進行純化與文庫構(gòu)建;然后對富集得到的DNA片段進行高通量測序。
CHIP-Seq的流程
基本流程如下圖:?
把DNA和蛋白質(zhì)交聯(lián)在一起,超聲處理為小片段,利用抗原抗體的特異性識別反應(yīng),將與目的蛋白相結(jié)合的DNA片段沉淀下來,富集和純化DNA,構(gòu)建文庫,高通量測序,最后精確定位到基因組上。CHIP-Seq過程中,由于DNA富集過程受多種因素的影響。因此,在做CHIP-seq實驗時,一定要做好實驗對照。因為沒有對照,很難對實驗結(jié)果的可靠性進行評估。一般有三種實驗對照:Input對照、陽性對照和陰性對照。常用Input對照。
CHIP-Seq的應(yīng)用
1.判斷 DNA 鏈的某一特定位置會出現(xiàn)何種組蛋白修飾
2.檢測 RNA polymerase II 及其它反式因子在基因組上結(jié)合位點的精確定位
3.研究組蛋白共價修飾與基因表達的關(guān)系
4.CTCF 轉(zhuǎn)錄因子研究