高通量測序數(shù)據(jù)處理學習記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件

前言

現(xiàn)有比對工具在做mapping之前,都需要下載對應物種的參考基因組做index,而如何選擇合適的參考基因組是一件非常重要的事情。

現(xiàn)有的參考基因組存儲網(wǎng)站三個:
ENSEMBL
UCSC
NCBI

UCSC 的命名是hg/mm系列,之前最常用的就是hg19參考基因組了。
ENSEMBL的命名規(guī)則則是采用GRCh/m的方式,GRCh37對應hg19,hg38對應GRCh38。
現(xiàn)階段的話,我個人比較推崇從ENSEMBL上下載參考基因組和注釋文件,以homo sapiens為例,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看現(xiàn)有的基因版本和一些配套的信息。

FTP地址為:ftp://ftp.ensembl.org/pub/release-92/,直接可以在目錄下download fasta文件和gtf文件,選擇對應的種屬即可。


fasta文件

ENSEMBL會存儲在多種形式fasta文件:


example

首先根據(jù)組裝的不同分為:

  • .toplevel - Includes haplotype information (not sure how aligners deal with this)
  • .primary_assembly - Single reference base per position

其實根據(jù)對序列的處理不同分為:

  • dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
  • dna_rm - Repeats masked (converts repeats to to N's)
  • dna - No masking

GTF文件

ftp://ftp.ensembl.org/pub/release-92/gtf/ 這個網(wǎng)址包含了常見物種的GTF文件,以homo sapiens為例,

gtf_files

命名規(guī)則為:

The files are consistently named following this pattern:  <species>.<assembly>.<version>.gtf.gz
# 需要注意的是,.abinitio后綴的GTF文件包括了Genscan和其他工具預測得到的注釋信息,會全面一些。
For the predicted gene set, an additional abinitio flag is added to the name file.

但是我自己選擇的話,我傾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz,因為在比對的時候fasta文件里面是帶有scaffold的信息的。

這邊我就不帶大家熟悉GTF的格式了。

需要注意,GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一樣的,GENCODE的chr1在ENSEMBL上就是1。其余的地方是一樣的(針對human & mouse而言)。

問題

在比對的時候,我該選用哪一個類型的fasta文件呢?
當然根據(jù)分析目的有不同選擇,這個時候你需要問自己幾個問題。

Repeat Masking

在NGS處理過程中,事實上我們并不需要使用一個標記重復區(qū)域的基因組。標記重復的基因組會用N代替重復區(qū)域,而這就給后續(xù)的比對帶來很大的問題,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的參考基因組。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標記出了參考基因組,但是以小寫的形式存在的,故對比對沒有影響。
這個問題問完了,dna_rm - Repeats masked出局,余下兩者進入下一個問題。

Primary or Toplevel?

簡單的回答就是說請選擇的primary版本,因為toplevel版本會包含haplotype信息,多余的信息會增加比對工具的工作,所以這里選擇primary就可以完成你的工作。

多出來的chr_unkonw.....的信息是啥?

這是在構(gòu)建基因組時已知存在于基因組內(nèi)但是不知道位于哪條染色體上,隨著注釋工作的進展這些未知基因會越來越少。


結(jié)語

一些需要注意的小tips:
在下載完成后,別忘了去check一下md5
下載同一版本的fasta和gtf文件
保險考慮,不要使用一些比對工具建立好的Index,自己index一下也沒多久。


以下為高通量測序數(shù)據(jù)處理系列快速通道:

高通量測序數(shù)據(jù)處理學習記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件

高通量測序數(shù)據(jù)處理學習記錄(一):比對軟件STAR的使用

高通量測序數(shù)據(jù)處理學習記錄(二):Read Counts的提取

高通量測序數(shù)據(jù)處理學習記錄(三):Pathway Analysis及GSEA

高通量測序數(shù)據(jù)處理學習記錄(四):DeepTools學習筆記

高通量測序數(shù)據(jù)處理學習記錄(五):上傳二代測序數(shù)據(jù)到GEO

高通量測序數(shù)據(jù)處理學習記錄(六):什么是測序深度和測序覆蓋度?

高通量測序數(shù)據(jù)處理學習記錄(七):使用ChIPQC包檢查ChIP-seq的質(zhì)量

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容