作業(yè)要求
轉(zhuǎn)錄組入門(mén)(4):了解參考基因組及基因注釋
在UCSC下載hg19參考基因組,我博客有詳細(xì)說(shuō)明,從gencode數(shù)據(jù)庫(kù)下載基因注釋文件,并且用IGV去查看你感興趣的基因的結(jié)構(gòu),比如TP53,KRAS,EGFR等等。
作業(yè),截圖幾個(gè)基因的IGV可視化結(jié)構(gòu)!還可以下載ENSEMBL,NCBI的gtf,也導(dǎo)入IGV看看,截圖基因結(jié)構(gòu)。了解IGV常識(shí)。
參考基因組準(zhǔn)備
明確實(shí)驗(yàn)?zāi)康?,依?jù)實(shí)驗(yàn)?zāi)康倪x取參考基因組,參考博文:RNA-seq選擇參考基因組
了解不同數(shù)據(jù)庫(kù)基因組各種版本對(duì)應(yīng)關(guān)系,參考博文:基因組各種版本對(duì)應(yīng)關(guān)系
本文下載小鼠基因組:
- 下載UCSC數(shù)據(jù)
點(diǎn)擊Downloads,選擇Genome Data ;點(diǎn)擊Mammals,找到M_musculus,選擇合適版本,進(jìn)入Full data set下載chromfa.tar.gz(該文件是基因組文件的打包),或進(jìn)入Data set by chromsome文件中下載各條染色體序列,在合并。 - 下載NCBI下genome中基因組數(shù)據(jù):ftp://ftp.ncbi.nlm.nih.gov/genomes/M_musculus/
- Ensembl中基因組數(shù)據(jù)下載:http://www.ensembl.org/info/data/ftp/index.html
參考基因組注釋文件準(zhǔn)備
GENCODE(http://www.gencodegenes.org/)中有小鼠基因組注釋文件;
Data->Mouse->Release History : 找到對(duì)應(yīng)我們先前下載的GRCm38版本,這兒下載M11,這個(gè)數(shù)據(jù)的對(duì)應(yīng)版本是不斷更新的;
GFF文件選擇:

研究能夠注釋到染色體上面的基因選擇位于CHR即可;研究染色體基因(包括注釋或未注釋到染色體上面的基因,未成功注釋的原因很多,測(cè)序誤差以及一些亞型之類(lèi)的問(wèn)題)選擇ALL;
這兒我下載了ALL gene的GTF文件。
Wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_mouse/release_M11/gencode.vM11.chr_patch_hapl_scaff.annotation.gtf.gz
GTF文件與GFF文件
GFF(general feature format),這種格式主要是用來(lái)注釋基因組;文件每一行注釋一個(gè)對(duì)象(gene,exon,cds and so on),每行包含9列,還有文件的預(yù)定義行。
GTF(gene transfer format),是GFF的第二個(gè)版本;前8列與GFF差不多,第9列變化較大。
GFF文件是由tab鍵隔開(kāi)的9列構(gòu)成:
- seqname - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix.
- source - name of the program that generated this feature, or the data source (database or project name)
- feature - feature type name, e.g. Gene, Variation, Similarity
- start - Start position of the feature, with sequence numbering starting at 1.
- end - End position of the feature, with sequence numbering starting at 1.
- score - A floating point value.
- strand - defined as + (forward) or - (reverse).
- frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
- attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.
GFF文件第9列:以多個(gè)鍵值對(duì)組成的注釋信息描述,鍵與值之間用”=“,不同的鍵值用”;“隔開(kāi),一個(gè)鍵可以有多個(gè)值,不同值用“;”分割,都是以ID這個(gè)屬性開(kāi)始。
1 transcribed_unprocessed_pseudogene gene 11869 14409 . + . gene_id "ENSG00000223972"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene";
1 processed_transcript transcript 11869 14409 . + . gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; gene_name "DDX11L1"; gene_sourc e "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana";
GTF文件第9列:同樣是標(biāo)簽與值配對(duì)的情況,但標(biāo)簽與值之間以空格分開(kāi),值用雙引號(hào)括起來(lái);不同屬性之間用“;”分隔;開(kāi)頭必須是gene_id, transcipt_id兩個(gè)屬性;
X Ensembl Repeat 2419108 2419128 42 . . hid=trf; hstart=1; hend=21
X Ensembl Repeat 2419108 2419410 2502 - . hid=AluSx; hstart=1; hend=303
X Ensembl Repeat 2419108 2419128 0 . . hid=dust; hstart=2419108; hend=2419128
X Ensembl Pred.trans. 2416676 2418760 450.19 - 2 genscan=GENSCAN00000019335
X Ensembl Variation 2413425 2413425 . + .
X Ensembl Variation 2413805 2413805 . + .
預(yù)定義行:
name- unique name to identify this track when parsing the file
description - Label to be displayed under the track in Region in Detail
priority - integer defining the order in which to display tracks, if multiple tracks are defined.
IGV的下載和使用:
IGV官網(wǎng)(http://software.broadinstitute.org/software/igv/home),下載windows版本。

文件夾中的igv.bat是運(yùn)行程序:

IGV運(yùn)行后主頁(yè)面:

參考基因組導(dǎo)入兩種方法:
1) 可以從右上角選取物種與相應(yīng)的版本,基因組自動(dòng)下載;
2) genome -> Load Genome From Files加載下載好的基因組文件;
基因組注釋文件導(dǎo)入:
基因組注釋文件排序:Tool -> Run igvtools中sort進(jìn)行排序,然后導(dǎo)入排序后的文件
比對(duì)文件(sam文件)查看:
Sam文件轉(zhuǎn)換為bam文件:
$ tools view -bS file-o file
對(duì)file.bam進(jìn)行sort,排序后文件file.sort.bam:
$ samtools sort file.bam file.sort
為bam文件創(chuàng)建索引:
$ samtools index file.sort.bam
導(dǎo)入bam文件,即可查看比對(duì)結(jié)果。
參考:
轉(zhuǎn)錄組入門(mén)(4):了解參考基因組及基因注釋
GFF/GTF File Format
RNA-seq選擇參考基因組
基因組各種版本對(duì)應(yīng)關(guān)系