如何獲取參考基因組和基因注釋?NCBI,genbank,refseq,GCA GCF這些傻傻分不清楚?

1.參考基因組,基因注釋之間的關(guān)系

參考基因是指完成了測序和組裝的完整基因組序列,常寫在fasta文件中(后面我們聚類分析需要用到參考基因組)

但這些fasta文件簡直就是天書,所以我們需要有人來解釋他,基因注釋應用而生

基因組注釋則是指對參考基因組序列中的基因和其他DNA序列特征進行識別和描述的過程,包括基因的名稱、位置、結(jié)構(gòu)、功能等信息.其常見格式如下

  • GFF (General Feature Format) :

  • GFF是一種用來描述基因組特征的文件格式,目前普遍使用的是第三版(gff3)。

  • GFF文件由9列組成,包括序列標識符、注釋來源、注釋類型、起始位置、終止位置、得分、鏈(正負)、相位以及屬性等信息。

  • 屬性列包含以“鍵=值”形式的多個屬性,如ID、Name、Alias、Note等。

  • GTF (Gene Transfer Format) :

  • GTF格式主要用來對基因進行注釋,廣泛使用的是第二版(gtf2)。

  • GTF文件同樣由9列組成,與GFF類似,但屬性列專注于基因相關(guān)的注釋,通常包含gene_idtranscript_id。

  • BED (Browser Extensible Data),引物文件常用此格式 :

  • BED文件通常用于表示基因組中的區(qū)域信息,例如Peak位置或基因注釋。

  • BED文件可以包含3到12列,包括染色體名稱、區(qū)域起始位置(0-based)、區(qū)域終止位置等

  • 2.參考基因組的命名

    參考基因組的命名遵循一定的規(guī)則和標準,由參考基因組聯(lián)盟Genome Reference Consortium (GRC)負責。,它是由 NCBI,EBI,桑格研究所等機構(gòu)組成。GRC 利用最佳的技術(shù)裝配,糾正,增加基因組序列,以此作為在生信分析領(lǐng)域作為參考的基因組。目前,該機構(gòu)構(gòu)建了人,小鼠,大鼠,斑馬魚,雞的參考基因組。以下是一些常見的命名規(guī)則和例子:

  • GRC官方命名:GRC為每個構(gòu)建的參考基因組分配一個官方名稱,如人類參考基因組的 "GRCh38"(Genome Reference Consortium Human Build 38)。

  • UCSC版本命名:UCSC基因組瀏覽器為每個參考基因組版本分配一個簡稱,如 "hg38" 對應 GRCh38。

  • Ensembl命名:Ensembl數(shù)據(jù)庫也使用類似GRC的命名方式,如 "GRCh38"。

  • NCBI和RefSeq命名:NCBI和RefSeq使用類似的命名規(guī)則,如GenBank中的 "GCA_000001405.15" 和RefSeq中的 "GCF_000001405.26" 都對應GRCh38。

  • 補丁命名:當在不更改染色體坐標的情況下更新參考基因組時,會在版本后加 .p 表示補丁,如 "GRCh38.p9"。

  • NCBI RefSeq命名格式:RefSeq記錄使用特定的前綴來區(qū)分不同類型的序列,例如:

  • "NM_" 前綴用于成熟的mRNA轉(zhuǎn)錄本。

  • "NP_" 前綴用于蛋白質(zhì)產(chǎn)品,通常包括全長前體蛋白。

  • "XM_" 和 "XP_" 前綴分別用于模型mRNA和蛋白質(zhì),它們由基因組注釋流程提供。

  • 版本升級:隨著新技術(shù)的應用,參考基因組會不斷更新,形成新的版本。例如,從 "hg18" 到 "hg19",再到 "hg38",坐標系統(tǒng)和基因組組裝可能發(fā)生變化。

    不同版本間的差異:不同版本的參考基因組可能在基因組組裝、基因注釋和序列上有所區(qū)別。例如,"hg19" 和 "hs37d5"(b37的升級版)在某些方面存在差異,如線粒體序列和染色體命名。

    3.上面提到的這么多簡寫到底是啥

    3.1 NCBI

    NCBI(National Center for Biotechnology Information,美國國立生物技術(shù)信息中心)是一個隸屬于美國國立衛(wèi)生研究院(NIH)的國家醫(yī)學圖書館(NLM)的機構(gòu)。它成立于1988年,主要任務是建立和維護生物技術(shù)和生物醫(yī)學領(lǐng)域的數(shù)據(jù)庫,提供相關(guān)的信息資源和分析工具。以下是NCBI的一些主要功能和資源:

    數(shù)據(jù)庫資源:NCBI開發(fā)和維護多個數(shù)據(jù)庫,包括:

  • GenBank:一個公共的核酸序列數(shù)據(jù)庫,包含所有公開可用的DNA序列的注釋集合。

  • refseq:?經(jīng)過篩選和注釋的參考序列的數(shù)據(jù)庫。RefSeq數(shù)據(jù)庫的目的是提供一套全面、集成、非冗余、注釋良好的序列,包括基因組DNA、轉(zhuǎn)錄本和蛋白質(zhì)。RefSeq序列構(gòu)成了醫(yī)學、功能和多樣性研究的基礎(chǔ),它們?yōu)榛蚪M注釋、基因鑒定和表征、突變和多態(tài)性分析、表達研究和比較分析提供了穩(wěn)定的參考。

  • PubMed:一個生物醫(yī)學和生命科學領(lǐng)域的文獻檢索系統(tǒng),包含引用、摘要和雜志索引。

  • Protein:蛋白質(zhì)數(shù)據(jù)庫,包含來自多個來源的序列記錄。

  • Nucleotide:核酸序列數(shù)據(jù)庫。

  • Taxonomy:分類數(shù)據(jù)庫,提供生物分類信息。

  • Structure:三維蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。

  • GEO (Gene Expression Omnibus):公共功能基因組學數(shù)據(jù)存儲庫。

  • ClinVar:收集關(guān)于基因變異與疾病之間關(guān)系的數(shù)據(jù)。

  • dbVar:人類基因組結(jié)構(gòu)變異數(shù)據(jù)庫。

  • 分析工具:NCBI提供了多種生物信息學分析工具,包括:

  • BLAST (Basic Local Alignment Search Tool):用于序列相似性搜索的工具。

  • ORFFinder:開放閱讀框?qū)ふ移鳌?/p>

  • Sequin:用于序列數(shù)據(jù)提交的工具。

  • BankIt:基于Web的提交工具。

  • 3.2?UCSC Genome Browser

    由加州大學圣克魯斯分校(UCSC)開發(fā)和維護的一個強大的基因組學工具,它提供了包括人類、小鼠和大鼠等多個物種的基因組草圖

    3.3Ensembl

    2.Ensembl

    https://useast.ensembl.org/index.html

    3.UCSC

    https://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=2309886318_vh61EH4ksGoPplhJec6e9nIeYMzf

    UCSC 本職的工作是做基因組瀏覽器的

    ?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
    【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
    平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

    相關(guān)閱讀更多精彩內(nèi)容

    友情鏈接更多精彩內(nèi)容