【讀書筆記】生信札記 第二章

1.簡介

生物信息學(xué)涉及的數(shù)據(jù)庫可大致分為二種:初級(jí)數(shù)據(jù)庫二級(jí)數(shù)據(jù)庫

初級(jí)數(shù)據(jù)庫貯存原始的生物數(shù)據(jù),如 DNA 序列,由晶體衍射(Crystallography)獲得的蛋白質(zhì)結(jié)構(gòu)等。

二級(jí)數(shù)據(jù)是在初級(jí)數(shù)據(jù)庫的基礎(chǔ)上經(jīng)加工和增加相關(guān)信息,使它們更便于特定專業(yè)人員的使用,如真核生物啟動(dòng)子序列庫 EPD 和蛋白質(zhì)一般結(jié)構(gòu)或功能模體(motif)數(shù)據(jù)庫 PROSITE。

一個(gè)數(shù)據(jù)庫記錄(entry)一般由兩部分組成:原始序列數(shù)據(jù)和描述這些數(shù)據(jù)生物學(xué)信息的注釋(annotation)。不同的數(shù)據(jù)庫的注釋質(zhì)量差異很大,因?yàn)橐粋€(gè)數(shù)據(jù)庫往往要在數(shù)據(jù)的完整性和注釋工作量之間尋找一個(gè)平衡點(diǎn)。數(shù)據(jù)庫記錄的注釋工作是一個(gè)動(dòng)態(tài)過程。在所有的生物信息數(shù)據(jù)庫中總會(huì)有一小部分的記錄(包括原始序列數(shù)據(jù)和注釋)是不正確的,這是一個(gè)無法避免的事實(shí)。

2.初級(jí)數(shù)據(jù)庫

2.1DNA數(shù)據(jù)庫

DNA 序列構(gòu)成了初級(jí)數(shù)據(jù)庫的主體部分。目前國際上有 3 個(gè)主要的 DNA 序列公共數(shù)據(jù)庫:

(1)歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory, EMBL)(位于英國劍橋)
(2)GenBank[美國國家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI),該中心隸屬于美國家醫(yī)學(xué)圖書館,位于美國國家衛(wèi)生研究院(NIH)內(nèi)]
3)日本 DNA 數(shù)據(jù)庫(DNADatabank of Japan,DDBJ)。

這 3 個(gè)大型數(shù)據(jù)庫于 1988 年達(dá)成協(xié)議,組成合作聯(lián)合體。它們每天交換信息,并對(duì)數(shù)據(jù)庫DNA 序列記錄的統(tǒng)一標(biāo)準(zhǔn)達(dá)成一致。每個(gè)機(jī)構(gòu)負(fù)責(zé)收集來自不同地理分布的數(shù)據(jù)(EMBL 負(fù)責(zé)歐洲,GenBank 負(fù)責(zé)美洲,DDBJ負(fù)責(zé)亞洲等),然后來自各地的所有信息匯總在一起,3 個(gè)數(shù)據(jù)庫共同享有并向世界開放,故這 3 個(gè)數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫(Public Sequence Database)。

DNA 序列數(shù)據(jù)庫的增長是飛速的,當(dāng)進(jìn)行生物信息學(xué)分析時(shí),分析結(jié)果中務(wù)必要注明你當(dāng)時(shí)所使用序列數(shù)據(jù)庫的數(shù)據(jù)狀況。

為了有效地管理如此龐大的數(shù)據(jù),數(shù)據(jù)庫數(shù)據(jù)根據(jù)物種(species)分為幾類,每個(gè)記錄都被嚴(yán)格地歸入某一類中。每一類用了 3 個(gè)字母代碼表示

2.2基因組數(shù)據(jù)庫

第二個(gè)主要的初級(jí)數(shù)據(jù)源來自各種基因組計(jì)劃。一些基因組計(jì)劃已經(jīng)完成,如 真 核生物酵母( Saccharomyces cerevisiae), 原腸生物( Methanococcus janeschii ) 和 3 個(gè)原核生物流感嗜血桿菌( Haemophilus influenzae )、( Mycoplasma genitaliam )和大腸桿菌( Escherichia coli )等。這些計(jì)劃的大部分信息在 EMBL 中均可找到。

人類最早(1977)獲得的生物基因組全序列是噬菌體(53kb),1987 年自動(dòng)測序儀問世,隨后第一個(gè)病毒基因組序列(1990)在自動(dòng)測序儀上完成;后來是第一個(gè)細(xì)菌基因組(1995)被完全測序,緊接著是酵母(1996)、多細(xì)胞線蟲(1998)和果蠅(1999)基因組,最后是人類自身(2000)的遺傳密碼被解開。

2.3蛋白質(zhì)序列數(shù)據(jù)

SWISS-PROTPIR 是國際上兩個(gè)主要的蛋白質(zhì)序列數(shù)據(jù)庫。SWISS-PROT 數(shù)據(jù)庫包括了從 EMBL 翻譯而來的蛋白質(zhì)序列,這些序列經(jīng)過檢驗(yàn)和注釋。該數(shù)據(jù)庫主要由日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系和歐洲生物信息學(xué)研究所(EBI)合作維護(hù)。SWISS-PROT 的序列數(shù)量呈直線增長。SWISS-PROT 的數(shù)據(jù)存在一個(gè)滯后問題,即把 EMBL 的 DNA 序列準(zhǔn)確地翻譯成蛋白質(zhì)序列并進(jìn)行注釋需要時(shí)間。一大批含有開放閱讀框(ORF) 的 DNA 序列尚未列入 SWISS-PROT。為了解決這一問題,TREMBL(Translated EMBL)被建立了起來。TREMBL 也是一個(gè)蛋白質(zhì)數(shù)據(jù)庫,它包括了所有 EMBL 庫中的蛋白質(zhì)編碼區(qū)序列,提供了一個(gè)非常全面的蛋白質(zhì)序列數(shù)據(jù)源,但這勢必導(dǎo)致其注釋質(zhì)量的下降。

PIR 數(shù)據(jù)庫的數(shù)據(jù)由美國家生物技術(shù)信息中心(NCBI)翻譯自 GenBank 的 DNA 序列。PIR 根據(jù)注釋程度(質(zhì)量)分為 4 個(gè)等級(jí)。

2.4蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫

實(shí)驗(yàn)獲得的三維蛋白質(zhì)結(jié)構(gòu)均貯存在蛋白質(zhì)數(shù)據(jù)庫 PDB 中。PDB 是國際上主要的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,雖然它沒有蛋白質(zhì)序列數(shù)據(jù)庫那么龐大,但其增長速度很快。PDB 貯存有由 X 射線和核磁共振(NMR)確定的結(jié)構(gòu)數(shù)據(jù)。NRL-3D 數(shù)據(jù)庫提供了貯存在 PDB 庫中蛋白質(zhì)的序列,它可以進(jìn)行與已知結(jié)構(gòu)的蛋白質(zhì)序列的比較。對(duì)來自 PDB 中每個(gè)已知三維結(jié)構(gòu)的蛋白質(zhì)序列進(jìn)行多序列同源性比較(multiple sequence alignment)的結(jié)果,被貯存在 HSSP(homology-derived structures of proteins)數(shù)據(jù)庫中。被列為同源的蛋白質(zhì)序列很有可能具有相同的三維結(jié)構(gòu),HSSP 因此根據(jù)同源性給出了 SWISS-PROT 數(shù)據(jù)庫中所有蛋白質(zhì)序列最有可能的三維結(jié)構(gòu)。要想了解對(duì)已知結(jié)構(gòu)蛋白質(zhì)進(jìn)行等級(jí)分類的情況可利用SCOP(Structural classification of proteins)數(shù)據(jù)庫,在該庫中可以比較某一蛋白質(zhì)與已知結(jié)構(gòu)蛋白的結(jié)構(gòu)相似性。

3.初級(jí)序列數(shù)據(jù)的注釋

到目前為此,尚沒有一個(gè)統(tǒng)一的序列注釋格式,各數(shù)據(jù)庫間均存在差異。但總的來說,各數(shù)據(jù)庫所提供的注釋內(nèi)容還是相同的?,F(xiàn)在比較使人不放心的是針對(duì)一個(gè)相同基因的 DNA 和蛋白質(zhì)序列注釋之間的差異。

相關(guān)文獻(xiàn)數(shù)據(jù)庫 (database cross-reference, DR)需要做進(jìn)一步的說明。許多二級(jí)數(shù)據(jù)庫內(nèi)容來自初始數(shù)據(jù)庫,例如 OMIM(Online Mendelian Inheritance in Man)數(shù)據(jù)庫是有關(guān)人類遺傳疾病的數(shù)據(jù),如果 OMIM 中的一個(gè)記錄與 EMBL 中一個(gè)已知序列的基因有關(guān),則該基因?qū)⑴c該記錄建立聯(lián)系,則 EMBL庫中該序列的 DR 欄中將包括 OMIM 和 OMIM 中相關(guān)記錄的名稱。上述例子的 DR 欄中有該 DNA 序列翻譯成蛋白質(zhì)序列的 SWISS-PROT 記錄號(hào)等。從此可見,DR 欄內(nèi)容非常重要,它有助于了解與該原始 DNA 序列相關(guān)信息的狀況和存貯站點(diǎn)。與 DR 欄可能有關(guān)的一些數(shù)據(jù)庫包括 SWISS-PROT、 EMBL、OMIM、PROSITE(保守蛋白質(zhì)模序數(shù)據(jù)庫)、HSSP、PDB、MEDLNE(與 RL 欄相關(guān)的文獻(xiàn)摘要數(shù)據(jù)庫)、PIR 等。

大量的 DNA 序列記錄包含有一個(gè)以上的開放讀框(ORF)。主表中的 PID 編號(hào)被用于唯一地指定每一個(gè) ORF。這一編號(hào)是一個(gè)非常重要的注釋信息,因?yàn)樗梢允乖S多不同的 SWISS-PROT 記錄與一個(gè)相同的 EMBL 序列相鏈接,可以精確地知道 EMBL 序列中的 ORF 所對(duì)應(yīng)的 SWISS-PROT 蛋白質(zhì)記錄。

4.數(shù)據(jù)庫信息檢索系統(tǒng)

最著名和操作性最強(qiáng)的 2 個(gè)系統(tǒng)是 Entrez(由美國建立)和 SRS(Sequence retrieval System)(由 EMBL Theore Etzold 建立。

序列一般可通過記錄號(hào)(如來自 1 篇發(fā)表的論文)或是該序列注釋中的一些信息進(jìn)行檢索。SRS 的優(yōu)勢是可以使你通過普通的終端去檢索大范圍的數(shù)據(jù)庫,并通過 DR 欄鏈接到在其它數(shù)據(jù)庫

4.1數(shù)據(jù)庫的冗余和偏差

DNA 和蛋白質(zhì)數(shù)據(jù)庫中的很多記錄是屬于同一基因和蛋白質(zhì)家族,或在不同生物體上發(fā)現(xiàn)的同源基因。

冗余數(shù)據(jù)至少可能導(dǎo)致以下 3 個(gè)潛在的錯(cuò)誤:

一是如果一組 DNA 或氨基酸序列包含了大量非常相關(guān)序列族,則相應(yīng)的統(tǒng)計(jì)分析將偏向這些族,在分析結(jié)果中,這些族的特性被夸大;

二是序列間不同部分的顯著相關(guān)可能是在數(shù)據(jù)樣本抽樣時(shí)是有偏的和不正確的;

三是如果這些數(shù)據(jù)是被用于預(yù)測,則這些序列將使預(yù)測方法—如人工智能方法-發(fā)生偏離。

序列數(shù)據(jù)的偏差或錯(cuò)誤(artifacts) 主要來自實(shí)驗(yàn)過程,這與其它科學(xué)數(shù)據(jù)的情況相同。這些錯(cuò)誤主要來自以下幾個(gè)方面:

(1)載體序列污染:在測序列等實(shí)驗(yàn)過程中,載體序列可能造成污染,致使序列記錄數(shù)據(jù)中包含了載體序列;
(2)異源(heterologous)序列污染:有研究表明一些人類 cDNA 測序結(jié)果在實(shí)驗(yàn)過程中被酵母和細(xì)菌序列污染;
(3)序列的重排和缺失;
(4)重復(fù)序列污染:cDNA 克隆方法有時(shí)會(huì)受到逆轉(zhuǎn)錄因子(如 Alus)的影響。
(5)測序誤差和自然多態(tài)性:測序過程存在一定的誤差概率。

4.2向數(shù)據(jù)庫發(fā)送序列數(shù)據(jù)及其它

許多學(xué)術(shù)期刊在發(fā)表含有序列數(shù)據(jù)的論文時(shí),均要求作者先將該序列發(fā)送并存貯到某一數(shù)據(jù)庫中。如果該序列是在歐洲完成的,則應(yīng)儲(chǔ)存到 EMBL,如來自美洲,則存到 GenBank,其它地區(qū)則應(yīng)發(fā)送到日本的 DDBJ。這些數(shù)據(jù)庫的主頁上均有詳細(xì)的發(fā)送說明。數(shù)據(jù)庫往往特別要求發(fā)送者要注意去除載體污染,例如EMBL 提供了 EBI 的相關(guān)服務(wù)(網(wǎng)址見上節(jié))。序列的發(fā)送可以通過網(wǎng)上進(jìn)行。EMBL的發(fā)送系統(tǒng)為 WEBIN(http://www.ebi.ac.uk/embl/Submission/webin.html),它除了可進(jìn)行一般大小的序列數(shù)據(jù)發(fā)送外,還可進(jìn)行大批量的數(shù)據(jù)發(fā)送(Bulk submission) 。 GenBank 的 發(fā) 送 系 統(tǒng)

Sequin(http://www.ncbi.nlm.nih.gov/Sequin/index.html)是由 NCB1 開發(fā)的多平臺(tái)(Mac/pc/unix)工具,適用于 EMBL、GenBank 和 DDBJ 數(shù)據(jù)庫的發(fā)送服務(wù)。具體發(fā)送格式和要求可到這些網(wǎng)站上查獲。一旦數(shù)據(jù)被接收,一個(gè)記錄號(hào)(對(duì)應(yīng)于發(fā)送的數(shù)據(jù))將產(chǎn)生并送給發(fā)送者,該記錄號(hào)可用于論文發(fā)表。

試驗(yàn)結(jié)果的可重復(fù)性是科學(xué)研究的一個(gè)重要特征。為了保證生物信息學(xué)研究結(jié)果的可重復(fù)性,準(zhǔn)確、全面的“材料與方法”說明比其它學(xué)科顯得更為重要和嚴(yán)格。一份清楚、準(zhǔn)確的“材料與方法”說明應(yīng)包括:

(1)數(shù)據(jù)庫的名稱:SWISSPROT、PIR、GenBank、EMBL、dbEST 等等,不應(yīng)是以類別(蛋白、核酸、序列等)說明。
(2)數(shù)據(jù)庫的版本(Version):數(shù)據(jù)庫在快速變化,它遠(yuǎn)快于期刊的發(fā)行速度,所以嚴(yán)格注明所用數(shù)據(jù)庫的版本;如果你的檢索是實(shí)時(shí)的,則注明最后檢索的日期。
(3)所使用的計(jì)算機(jī):這可能是不重要的一項(xiàng)說明,因?yàn)樗惴ǖ炔徽撛诤畏N計(jì)算機(jī)上均應(yīng)相同,但如果在使用異地(off-site)計(jì)算機(jī)系統(tǒng)(如E-mail 和 Internet)服務(wù),那么,科學(xué)的態(tài)度應(yīng)是注明其服務(wù)器及其管理者。
(4)替換矩陣(substitution matrix):所有的現(xiàn)代搜索程序均使用替換矩陣,選用不同的矩陣會(huì)產(chǎn)生完全不同的結(jié)果,所以必須注明在搜索和列陣(aligning)中使用何種矩陣。
(5)空位罰值(gap penalty):很多算法使用空位罰值(如 FASTA)。

一般用戶可利用的分子數(shù)據(jù)庫服務(wù)內(nèi)容可分為幾種:E-mail 服務(wù)、匿名 FTP服務(wù)、www 服務(wù)和序列相似性搜索服務(wù)等。通過 E-mail 可向數(shù)據(jù)庫發(fā)送相關(guān)要求來獲取有關(guān)數(shù)據(jù)和服務(wù)。匿名 FTP 服務(wù)是另外一種進(jìn)入數(shù)據(jù)庫獲取信息的方法,研究者可利用本地的 FTP(file transfer protocol)程序連接到相應(yīng)的數(shù)據(jù)庫主機(jī)上,以“anonymous”(匿名)為用戶名和自己的 E-mail 地址為口令進(jìn)入。www 服務(wù)是通過網(wǎng)絡(luò)直接進(jìn)入相關(guān)數(shù)據(jù)庫網(wǎng)址,進(jìn)行數(shù)據(jù)檢索、數(shù)據(jù)傳送等。同時(shí)各數(shù)據(jù)庫均提供序列相似性檢索等序列分析的服務(wù),如 FASTA、BLAST 和 BLITS 等服務(wù)分析結(jié)果通過 E-mail 發(fā)送返回或直接顯示在瀏覽器上。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容