網(wǎng)址:https://asia.ensembl.org/index.html
- Ensembl是一個(gè) 脊椎動(dòng)物 基因組的基因組瀏覽器,支持比較基因組學(xué)、進(jìn)化、序列變異和轉(zhuǎn)錄調(diào)控的研究。Ensembl注解基因,計(jì)算多種校準(zhǔn),預(yù)測調(diào)節(jié)功能和收集疾病數(shù)據(jù)。
Ensembl 的特點(diǎn):
1、物種種類齊全。
2、提供物種基因組序列。
3、有比對(duì)工具:BLAST, BLAT, BioMart和變異效應(yīng)預(yù)測器(VEP)。
Ensembl提供搜索功能,種類包括Gene, Transcript, Variant, Phenotype, Structural variation, Somatic mutation, Protein families, Gene tree, GenomicAlignment, Translation, Protein domains, Clones and regions, Marker.

image
提供物種數(shù)據(jù)的大類:
Protein-coding and non-coding genes, splice variants, cDNA and protein sequences, non-coding RNAs.
其中
- FASTA files for genes, cDNAs, ncRNA,
- proteins GTF or GFF3 files for genes, cDNAs, ncRNA, proteins
其中cDNA是互補(bǔ)DNA,是由mRNA反轉(zhuǎn)錄來的DNA,不包括ncRNA.雙鏈DNA縮寫是dsDNA,ncRNA表示非編碼RNA.
CDS是編碼序列(Coding sequence)的縮寫。DNA轉(zhuǎn)錄成mRNA,mRNA經(jīng)剪接等加工后翻譯出蛋白質(zhì),所謂CDS就是與蛋白質(zhì)序列一 一對(duì)應(yīng)的DNA序列

image
- primary_assembly 結(jié)尾的文件,該文件內(nèi)部有完整的基因組信息(包括每條染色體的序列信息),一般做比對(duì)選它。
- alt 結(jié)尾的參考基因組文件,這個(gè)文件的alt代表:Alternate loci,不同的單倍體型,里面有不同的HLA序列,基因在一條染色體上的組合稱單元型(haplotype ,又稱單倍型)
- chromosome+數(shù)字 結(jié)尾的代表每個(gè)染色體的序列信息
- 以toplevel結(jié)尾的文件,其內(nèi)部包括了很多該物種的亞型,或者說包括了大量的變異信息,其余很多部分都是冗余的,不建議做比對(duì)時(shí)使用,否則建索引就很慢。
- dna_rm: 該類序列為dna repeat masker序列,即屏蔽重復(fù)序列,該序列中,所有重復(fù)序列均會(huì)變成N;在做比對(duì)時(shí)不建議使用
- dna_sm: 該類序列為dna soft masker序列,即軟屏蔽重復(fù)序列,該類序列中,所有重復(fù)序列均會(huì)變成小寫;有些軟件在比對(duì)時(shí)可以進(jìn)行大小寫轉(zhuǎn)換,有些則不會(huì)

image