1.參考基因組,基因注釋之間的關(guān)系
參考基因組是指完成了測序和組裝的完整基因組序列,常寫在fasta文件中(后面我們聚類分析需要用到參考基因組)

但這些fasta文件簡直就是天書,所以我們需要有人來解釋他,基因注釋應用而生
基因組注釋則是指對參考基因組序列中的基因和其他DNA序列特征進行識別和描述的過程,包括基因的名稱、位置、結(jié)構(gòu)、功能等信息.其常見格式如下
GFF (General Feature Format) :
GFF是一種用來描述基因組特征的文件格式,目前普遍使用的是第三版(gff3)。
GFF文件由9列組成,包括序列標識符、注釋來源、注釋類型、起始位置、終止位置、得分、鏈(正負)、相位以及屬性等信息。
屬性列包含以“鍵=值”形式的多個屬性,如ID、Name、Alias、Note等。
GTF (Gene Transfer Format) :
GTF格式主要用來對基因進行注釋,廣泛使用的是第二版(gtf2)。
GTF文件同樣由9列組成,與GFF類似,但屬性列專注于基因相關(guān)的注釋,通常包含gene_id和transcript_id。
BED (Browser Extensible Data),引物文件常用此格式 :
BED文件通常用于表示基因組中的區(qū)域信息,例如Peak位置或基因注釋。
BED文件可以包含3到12列,包括染色體名稱、區(qū)域起始位置(0-based)、區(qū)域終止位置等
2.參考基因組的命名
參考基因組的命名遵循一定的規(guī)則和標準,由參考基因組聯(lián)盟Genome Reference Consortium (GRC)負責。,它是由 NCBI,EBI,桑格研究所等機構(gòu)組成。GRC 利用最佳的技術(shù)裝配,糾正,增加基因組序列,以此作為在生信分析領(lǐng)域作為參考的基因組。目前,該機構(gòu)構(gòu)建了人,小鼠,大鼠,斑馬魚,雞的參考基因組。以下是一些常見的命名規(guī)則和例子:

GRC官方命名:GRC為每個構(gòu)建的參考基因組分配一個官方名稱,如人類參考基因組的 "GRCh38"(Genome Reference Consortium Human Build 38)。
UCSC版本命名:UCSC基因組瀏覽器為每個參考基因組版本分配一個簡稱,如 "hg38" 對應 GRCh38。
Ensembl命名:Ensembl數(shù)據(jù)庫也使用類似GRC的命名方式,如 "GRCh38"。
NCBI和RefSeq命名:NCBI和RefSeq使用類似的命名規(guī)則,如GenBank中的 "GCA_000001405.15" 和RefSeq中的 "GCF_000001405.26" 都對應GRCh38。
補丁命名:當在不更改染色體坐標的情況下更新參考基因組時,會在版本后加 .p 表示補丁,如 "GRCh38.p9"。
NCBI RefSeq命名格式:RefSeq記錄使用特定的前綴來區(qū)分不同類型的序列,例如:
"NM_" 前綴用于成熟的mRNA轉(zhuǎn)錄本。
"NP_" 前綴用于蛋白質(zhì)產(chǎn)品,通常包括全長前體蛋白。
"XM_" 和 "XP_" 前綴分別用于模型mRNA和蛋白質(zhì),它們由基因組注釋流程提供。
版本升級:隨著新技術(shù)的應用,參考基因組會不斷更新,形成新的版本。例如,從 "hg18" 到 "hg19",再到 "hg38",坐標系統(tǒng)和基因組組裝可能發(fā)生變化。
不同版本間的差異:不同版本的參考基因組可能在基因組組裝、基因注釋和序列上有所區(qū)別。例如,"hg19" 和 "hs37d5"(b37的升級版)在某些方面存在差異,如線粒體序列和染色體命名。
3.上面提到的這么多簡寫到底是啥
3.1 NCBI
NCBI(National Center for Biotechnology Information,美國國立生物技術(shù)信息中心)是一個隸屬于美國國立衛(wèi)生研究院(NIH)的國家醫(yī)學圖書館(NLM)的機構(gòu)。它成立于1988年,主要任務是建立和維護生物技術(shù)和生物醫(yī)學領(lǐng)域的數(shù)據(jù)庫,提供相關(guān)的信息資源和分析工具。以下是NCBI的一些主要功能和資源:
數(shù)據(jù)庫資源:NCBI開發(fā)和維護多個數(shù)據(jù)庫,包括:
GenBank:一個公共的核酸序列數(shù)據(jù)庫,包含所有公開可用的DNA序列的注釋集合。
refseq:?經(jīng)過篩選和注釋的參考序列的數(shù)據(jù)庫。RefSeq數(shù)據(jù)庫的目的是提供一套全面、集成、非冗余、注釋良好的序列,包括基因組DNA、轉(zhuǎn)錄本和蛋白質(zhì)。RefSeq序列構(gòu)成了醫(yī)學、功能和多樣性研究的基礎(chǔ),它們?yōu)榛蚪M注釋、基因鑒定和表征、突變和多態(tài)性分析、表達研究和比較分析提供了穩(wěn)定的參考。
PubMed:一個生物醫(yī)學和生命科學領(lǐng)域的文獻檢索系統(tǒng),包含引用、摘要和雜志索引。
Protein:蛋白質(zhì)數(shù)據(jù)庫,包含來自多個來源的序列記錄。
Nucleotide:核酸序列數(shù)據(jù)庫。
Taxonomy:分類數(shù)據(jù)庫,提供生物分類信息。
Structure:三維蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。
GEO (Gene Expression Omnibus):公共功能基因組學數(shù)據(jù)存儲庫。
ClinVar:收集關(guān)于基因變異與疾病之間關(guān)系的數(shù)據(jù)。
dbVar:人類基因組結(jié)構(gòu)變異數(shù)據(jù)庫。
分析工具:NCBI提供了多種生物信息學分析工具,包括:
BLAST (Basic Local Alignment Search Tool):用于序列相似性搜索的工具。
ORFFinder:開放閱讀框?qū)ふ移鳌?/p>
Sequin:用于序列數(shù)據(jù)提交的工具。
BankIt:基于Web的提交工具。
3.2?UCSC Genome Browser
由加州大學圣克魯斯分校(UCSC)開發(fā)和維護的一個強大的基因組學工具,它提供了包括人類、小鼠和大鼠等多個物種的基因組草圖
3.3Ensembl


2.Ensembl
https://useast.ensembl.org/index.html
3.UCSC
https://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=2309886318_vh61EH4ksGoPplhJec6e9nIeYMzf
UCSC 本職的工作是做基因組瀏覽器的