轉(zhuǎn)錄組入門(mén)(4):了解參考基因組及基因注釋

作業(yè)要求
轉(zhuǎn)錄組入門(mén)(4):了解參考基因組及基因注釋
在UCSC下載hg19參考基因組,我博客有詳細(xì)說(shuō)明,從gencode數(shù)據(jù)庫(kù)下載基因注釋文件,并且用IGV去查看你感興趣的基因的結(jié)構(gòu),比如TP53,KRAS,EGFR等等。
作業(yè),截圖幾個(gè)基因的IGV可視化結(jié)構(gòu)!還可以下載ENSEMBL,NCBI的gtf,也導(dǎo)入IGV看看,截圖基因結(jié)構(gòu)。了解IGV常識(shí)。

參考基因組準(zhǔn)備

明確實(shí)驗(yàn)?zāi)康?,依?jù)實(shí)驗(yàn)?zāi)康倪x取參考基因組,參考博文:RNA-seq選擇參考基因組
了解不同數(shù)據(jù)庫(kù)基因組各種版本對(duì)應(yīng)關(guān)系,參考博文:基因組各種版本對(duì)應(yīng)關(guān)系
本文下載小鼠基因組:

  • 下載UCSC數(shù)據(jù)
    點(diǎn)擊Downloads,選擇Genome Data ;點(diǎn)擊Mammals,找到M_musculus,選擇合適版本,進(jìn)入Full data set下載chromfa.tar.gz(該文件是基因組文件的打包),或進(jìn)入Data set by chromsome文件中下載各條染色體序列,在合并。
  • 下載NCBI下genome中基因組數(shù)據(jù):ftp://ftp.ncbi.nlm.nih.gov/genomes/M_musculus/
  • Ensembl中基因組數(shù)據(jù)下載:http://www.ensembl.org/info/data/ftp/index.html

參考基因組注釋文件準(zhǔn)備

GENCODE(http://www.gencodegenes.org/)中有小鼠基因組注釋文件;
Data->Mouse->Release History : 找到對(duì)應(yīng)我們先前下載的GRCm38版本,這兒下載M11,這個(gè)數(shù)據(jù)的對(duì)應(yīng)版本是不斷更新的;

GFF文件選擇:


研究能夠注釋到染色體上面的基因選擇位于CHR即可;研究染色體基因(包括注釋或未注釋到染色體上面的基因,未成功注釋的原因很多,測(cè)序誤差以及一些亞型之類(lèi)的問(wèn)題)選擇ALL;
這兒我下載了ALL gene的GTF文件。
Wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_mouse/release_M11/gencode.vM11.chr_patch_hapl_scaff.annotation.gtf.gz

GTF文件與GFF文件

GFF(general feature format),這種格式主要是用來(lái)注釋基因組;文件每一行注釋一個(gè)對(duì)象(gene,exon,cds and so on),每行包含9列,還有文件的預(yù)定義行。
GTF(gene transfer format),是GFF的第二個(gè)版本;前8列與GFF差不多,第9列變化較大。
GFF文件是由tab鍵隔開(kāi)的9列構(gòu)成:

  1. seqname - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix.
  2. source - name of the program that generated this feature, or the data source (database or project name)
  3. feature - feature type name, e.g. Gene, Variation, Similarity
  4. start - Start position of the feature, with sequence numbering starting at 1.
  5. end - End position of the feature, with sequence numbering starting at 1.
  6. score - A floating point value.
  7. strand - defined as + (forward) or - (reverse).
  8. frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  9. attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.

GFF文件第9列:以多個(gè)鍵值對(duì)組成的注釋信息描述,鍵與值之間用”=“,不同的鍵值用”;“隔開(kāi),一個(gè)鍵可以有多個(gè)值,不同值用“;”分割,都是以ID這個(gè)屬性開(kāi)始。

1 transcribed_unprocessed_pseudogene  gene        11869 14409 . + . gene_id "ENSG00000223972"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; 
1 processed_transcript                transcript  11869 14409 . + . gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; gene_name "DDX11L1"; gene_sourc e "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana";

GTF文件第9列:同樣是標(biāo)簽與值配對(duì)的情況,但標(biāo)簽與值之間以空格分開(kāi),值用雙引號(hào)括起來(lái);不同屬性之間用“;”分隔;開(kāi)頭必須是gene_id, transcipt_id兩個(gè)屬性;

X   Ensembl Repeat  2419108 2419128 42  .   .   hid=trf; hstart=1; hend=21
X   Ensembl Repeat  2419108 2419410 2502    -   .   hid=AluSx; hstart=1; hend=303
X   Ensembl Repeat  2419108 2419128 0   .   .   hid=dust; hstart=2419108; hend=2419128
X   Ensembl Pred.trans. 2416676 2418760 450.19  -   2   genscan=GENSCAN00000019335
X   Ensembl Variation   2413425 2413425 .   +   .   
X   Ensembl Variation   2413805 2413805 .   +   .

預(yù)定義行:
name- unique name to identify this track when parsing the file
description - Label to be displayed under the track in Region in Detail
priority - integer defining the order in which to display tracks, if multiple tracks are defined.

IGV的下載和使用:

IGV官網(wǎng)(http://software.broadinstitute.org/software/igv/home),下載windows版本。

IGV

文件夾中的igv.bat是運(yùn)行程序:


IGV運(yùn)行后主頁(yè)面:

參考基因組導(dǎo)入兩種方法:
1) 可以從右上角選取物種與相應(yīng)的版本,基因組自動(dòng)下載;
2) genome -> Load Genome From Files加載下載好的基因組文件;

基因組注釋文件導(dǎo)入:
基因組注釋文件排序:Tool -> Run igvtools中sort進(jìn)行排序,然后導(dǎo)入排序后的文件

比對(duì)文件(sam文件)查看:
Sam文件轉(zhuǎn)換為bam文件:
$ tools view -bS file-o file
對(duì)file.bam進(jìn)行sort,排序后文件file.sort.bam:
$ samtools sort file.bam file.sort
為bam文件創(chuàng)建索引:
$ samtools index file.sort.bam
導(dǎo)入bam文件,即可查看比對(duì)結(jié)果。

參考:
轉(zhuǎn)錄組入門(mén)(4):了解參考基因組及基因注釋
GFF/GTF File Format
RNA-seq選擇參考基因組
基因組各種版本對(duì)應(yīng)關(guān)系

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容