IGV?軟件有?自帶的基因組文件和注釋文件?,使用自帶的還是方便一些。但是,其使用的注釋文件和基因組文件可能與我們數(shù)據(jù)分析時(shí)的不一致,這時(shí)候我們可視化?bigwig?文件或者?bam?文件時(shí)可能就有問(wèn)題了。其次,?基因組更新是比較慢?的,但是?注釋文件更新的很快?,越來(lái)越多的新基因被鑒定出來(lái),添加到注釋文件里,注釋文件就會(huì)有越來(lái)越多的新版本。推薦使用對(duì)應(yīng)基因組版本的最新注釋文件,這樣得到的信息會(huì)更全一些。
IGV 導(dǎo)入本地基因組及注釋文件 (qq.com):微信公眾號(hào):老俊俊的生信筆記
IGV進(jìn)階筆記 (qq.com):微信公眾號(hào):生信小知識(shí)
聯(lián)川生物:論文缺一張IGV峰型圖?就這樣畫(huà)!
轉(zhuǎn)錄組入門(mén)4-參考基因組、注釋文件下載及IGV - 知乎 (zhihu.com)
有時(shí)候用自己下載的?GTF?文件去定量后,在?IGV?里卻找不到這個(gè)基因,這就是注釋文件差異的問(wèn)題。IGV 使用的注釋文件好像時(shí)?UCSC?數(shù)據(jù)庫(kù)的,所以載入自己的 GTF 文件才會(huì)準(zhǔn)確一點(diǎn)。
一:下載基因組和注釋文件
注釋文件gtf/gff都可以


下載之后解壓
二:導(dǎo)入到igv
(1)igv里面直接對(duì)參考基因組進(jìn)行構(gòu)建索引
?IGV 工具欄,tools-Run igvtools;選擇index

(2)igv里面給注釋文件排序,構(gòu)建索引
也可以不自己排序構(gòu)建,即省略這一步(此步錯(cuò)誤,一定要排序)
IGV 工具欄,tools-Run igvtools;選擇sort;輸入注釋文件;生成sort;
接著,IGV 工具欄,tools-Run igvtools;選擇index;輸入剛剛的sort文件;生成index;
三:導(dǎo)入文件
?IGV 里導(dǎo)入基因組文件和排序好的 GTF 文件 (也可以是下載好的原始注釋文件,igv會(huì)自己構(gòu)建索引),一定要先導(dǎo)入基因組文件!???!
(1)參考基因組
IGV 工具欄,Genomes?→ load genome from

或者Genomes?→?Create genome File :

(2)gff/gtf注釋文件
File?→?Load from File→找到注釋文件即可(該步錯(cuò)誤)
或者剛剛建立好索引的sort文件(不知道是不是gff的原因,導(dǎo)入該文件后顯示如下圖1,所以我直接輸入了未經(jīng)排序構(gòu)建索引的注釋文件,如圖2)


這樣做的好處是:
我們可以準(zhǔn)確的查看比對(duì)后的結(jié)果文件,以及比對(duì)后轉(zhuǎn)換的各種其他格式文件
這樣做的不足是:
沒(méi)有辦法直接根據(jù)基因名進(jìn)行搜索,沒(méi)有直接用IGV自帶的基因組文件方便
四:導(dǎo)出基因名和位置信息
如果我們使用 IGV?自帶的注釋文件,我們是可以根據(jù)基因名進(jìn)行搜索的,但是加載自己的注釋文件則不可以,只能根據(jù)位置進(jìn)行查找,所以做一個(gè)含有基因名和位置信息的文件方便我們查找:
查看有多少個(gè)基因:
$?less?-S?Mus_musculus.GRCm39.104.sorted.gtf?|?grep?-w?"gene"?|wc?-l55416
查看有多少個(gè)基因:
$?less?-S?Mus_musculus.GRCm39.104.sorted.gtf?\??|?grep?-w?"gene"?\??|awk?'{print?"chr"$1"\t"$4"\t"$5"\t"$14}'?\??|sed?'s/["|;]//g'?\??>?gene.info.xls
結(jié)果:

我們直接在?excel?里搜到感興趣基因,然后復(fù)制前 3 列到 IGV 里直接查找回車(chē)就行了:

另一種辦法:其實(shí)不同數(shù)據(jù)庫(kù)的基因組版本基本是一樣的,我們關(guān)注的主要是注釋文件的差異,所以我們?默認(rèn)使用 IGV 軟件自帶的基因組和注釋文件?,然后導(dǎo)入自己的 GTF 注釋文件就行了:
先加載igv自帶,然后File?→?Load from File→sort文件
