前言

現(xiàn)有比對工具在做mapping之前，都需要下載對應物種的參考基因組做index，而如何選擇合適的參考基因組是一件非常重要的事情。

現(xiàn)有的參考基因組存儲網(wǎng)站三個：
ENSEMBL
UCSC
NCBI

UCSC 的命名是hg/mm系列，之前最常用的就是hg19參考基因組了。
ENSEMBL的命名規(guī)則則是采用GRCh/m的方式，GRCh37對應hg19，hg38對應GRCh38。
現(xiàn)階段的話，我個人比較推崇從ENSEMBL上下載參考基因組和注釋文件，以homo sapiens為例，https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看現(xiàn)有的基因版本和一些配套的信息。

FTP地址為：ftp://ftp.ensembl.org/pub/release-92/，直接可以在目錄下download fasta文件和gtf文件，選擇對應的種屬即可。

fasta文件

ENSEMBL會存儲在多種形式fasta文件:

example

首先根據(jù)組裝的不同分為：

.toplevel - Includes haplotype information (not sure how aligners deal with this)
.primary_assembly - Single reference base per position

其實根據(jù)對序列的處理不同分為：

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
dna_rm - Repeats masked (converts repeats to to N's)
dna - No masking

GTF文件

ftp://ftp.ensembl.org/pub/release-92/gtf/ 這個網(wǎng)址包含了常見物種的GTF文件，以homo sapiens為例，

gtf_files

命名規(guī)則為：

The files are consistently named following this pattern:  <species>.<assembly>.<version>.gtf.gz
# 需要注意的是，.abinitio后綴的GTF文件包括了Genscan和其他工具預測得到的注釋信息，會全面一些。
For the predicted gene set, an additional abinitio flag is added to the name file.

但是我自己選擇的話，我傾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz，因為在比對的時候fasta文件里面是帶有scaffold的信息的。

這邊我就不帶大家熟悉GTF的格式了。

需要注意，GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一樣的，GENCODE的chr1在ENSEMBL上就是1。其余的地方是一樣的（針對human & mouse而言）。

問題

在比對的時候，我該選用哪一個類型的fasta文件呢？
當然根據(jù)分析目的有不同選擇，這個時候你需要問自己幾個問題。

Repeat Masking

在NGS處理過程中，事實上我們并不需要使用一個標記重復區(qū)域的基因組。標記重復的基因組會用N代替重復區(qū)域，而這就給后續(xù)的比對帶來很大的問題，所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的參考基因組。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標記出了參考基因組，但是以小寫的形式存在的，故對比對沒有影響。
這個問題問完了，dna_rm - Repeats masked出局，余下兩者進入下一個問題。