NCBI全稱National Center for Biotechnology Information(國家生物技術(shù)信息中心),是美國國家醫(yī)學(xué)圖書館(National Library of Medicine)的下設(shè)部門,而美國國家醫(yī)學(xué)圖書館隸屬美國衛(wèi)生與公眾服務(wù)部的國立衛(wèi)生研究院。
NCBI是生物技術(shù)信息工具的集合器,包括數(shù)據(jù)庫(Databases)、下載器(Downloads)、上傳器(Submissions)、其他工具(Tools)四個(gè)部分。其中數(shù)據(jù)庫是核心,其余為使用數(shù)據(jù)、更新數(shù)據(jù)及查找數(shù)據(jù)的工具,為數(shù)據(jù)庫的“臂膀”。
NCBI共有59種數(shù)據(jù)庫,29種下載器,16中上傳器,51種其他類型工具(https://www.ncbi.nlm.nih.gov/guide/all/)。59種數(shù)據(jù)庫中最為重要的35種,分文獻(xiàn)(Literature)5種、基因(Genes)5種、基因組(Genomes)8種、蛋白(Proteins)5種、臨床(Clinical)8種、有機(jī)小分子生物活性(PubChem)4種;重要下載器1種,即Blast,又分5類(blastn, blastp, blastx, tblastn, Primer-BLAST)(https://www.ncbi.nlm.nih.gov/search/?term=)。
與基因組直接相關(guān)的數(shù)據(jù)庫SRA、Nucleotide、Genome、Assembly相互聯(lián)系、密不可分。SRA存儲(chǔ)測序原始數(shù)據(jù)(未拼接的reads)和對(duì)齊信息。Nucleotide是將測序原始數(shù)據(jù)拼接而成的核苷酸序列,即堿基序列。因此出于各種目的的DNA測序拼接形成的序列均被收載,包括來自基因銀行(GenBank)、參考序列數(shù)據(jù)庫(RefSeq)、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(Protein Data Bank, PDB)、第三方注釋數(shù)據(jù)庫(Third Party Annotation, TPA)的核苷酸序列。這里的GenBank是由NCBI早期建立的序列數(shù)據(jù)庫,收錄高通量基因組序列(High Throughput Genomic Sequences, HTG)、表達(dá)序列標(biāo)簽(Expressed Sequence Tags, EST)、序列標(biāo)記位點(diǎn)(Sequence Tagged Sites, STS)、基因組概覽序列(Genome Survey Sequences, GSS),可見GenBank收錄全基因組或全基因組草圖及分子標(biāo)記等。過去GenBank是NCBI數(shù)據(jù)庫中相對(duì)獨(dú)立的部分,現(xiàn)在已經(jīng)融入Nucleotide中。RefSeq也是NCBI建立的數(shù)據(jù)庫,它是由NCBI科研人員與一些機(jī)構(gòu)合作,從科研團(tuán)隊(duì)提交的全基因組中挑選出質(zhì)量高的序列構(gòu)成,作為生信研究的參考基因組。Genome數(shù)據(jù)庫在Nucleotide的基礎(chǔ)上增加了圖譜、注釋等信息,形成染色體水平基因組。Assembly數(shù)據(jù)庫實(shí)際描述了基因組組裝的信息,包括被組裝基因組的結(jié)構(gòu)、組裝名稱以及其他元數(shù)據(jù)(描述數(shù)據(jù)的數(shù)據(jù),即屬性)、統(tǒng)計(jì)報(bào)告及基因組測序數(shù)據(jù)的鏈接。
與基因組間接相關(guān)的數(shù)據(jù)包括Taxonomy、BioSimple、BioCollections、BioProject。描述基因組的客觀載體的是Taxonomy,它收錄各基因組對(duì)應(yīng)的宏觀物種信息?;蚪M樣品信息收錄于BioSimple。而存儲(chǔ)樣品的機(jī)構(gòu)(博物館、標(biāo)本館等)信息由BioCollections提供。對(duì)于研究課題的整體概況及相關(guān)介紹可以在BioProject中找到。
通過整理基因組數(shù)據(jù)庫之?dāng)?shù)據(jù)延伸出的數(shù)據(jù)庫包括Gene、HomoloGene、PopSet、GEO DataSets、GEO Profiles。Gene數(shù)據(jù)庫是以單個(gè)基因?yàn)閱挝?,在Nucleotide、Genome的基礎(chǔ)上,說明其屬性,包括命名、參考序列、染色體定位、變異、表型等,并提供相關(guān)基因組的擴(kuò)展鏈接,但不展示序列。HomoloGene將已測得的全基因組中各物種的同源基因分別展示,形成一個(gè)個(gè)同源基因簇集。PopSet收集上傳至GeneBank中有關(guān)種群、種系發(fā)生(phylogenetic)、突變及生態(tài)學(xué)比較基因組學(xué)研究的DNA序列。因此數(shù)據(jù)庫中的每條記錄是一組來自相同物種(種群、突變)、不同個(gè)體物種(種系發(fā)生)或生物群落中未知物種(微生物群落)的全部核苷酸序列。GEO DataSets與GEO Profiles是功能基因組相關(guān)的數(shù)據(jù)庫,既有些獨(dú)立又與Nucleotide有聯(lián)系,即二者并不儲(chǔ)存序列,而僅描述試驗(yàn)相關(guān)的信息,其序列存儲(chǔ)于Nucleotide中,可見Seurat_Satija簡書的介紹。