人類(lèi)基因組hg19.fa和hg38.fa下載及基因注釋下載

詳細(xì)先查看:http://www.bio-info-trainee.com/1469.html

http://www.itdecent.cn/p/3e545b9a3c68

https://blog.csdn.net/leadingsci/article/details/82947869
ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/

在UCSC下載hg19參考基因組,群主博客有詳細(xì)說(shuō)明,從gencode數(shù)據(jù)庫(kù)下載基因注釋文件,并且用IGV去查看你感興趣的基因的結(jié)構(gòu),例如TP53,EGFR等等。

截圖幾個(gè)基因的IGV可視化結(jié)構(gòu)!還可以下載ENSEMBL,NCBI的GTF,也導(dǎo)入IGV看看,截圖基因結(jié)構(gòu)。了解IGV常識(shí)。

首先是NCBI對(duì)應(yīng)UCSC,對(duì)應(yīng)ENSEMBL數(shù)據(jù)庫(kù):

GRCh36 (hg18): ENSEMBL release_52.

GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.

GRCh38 (hg38):?ENSEMBL? release_76/77/78/80/81/82.

可以看到ENSEMBL的版本特別復(fù)雜?。?!很容易搞混!

但是UCSC的版本就簡(jiǎn)單了,就hg18,19,38, 常用的是hg19,但是我推薦大家都轉(zhuǎn)為hg38

看起來(lái)NCBI也是很簡(jiǎn)單,就GRCh36,37,38,但是里面水也很深!

可以看到,有37.1,?? 37.2,? 37.3 等等,不過(guò)這種版本一般指的是注釋在更新,基因組序列一般不會(huì)更新?。?!

反正你記住hg19基因組大小是3G,壓縮后八九百兆即可!??!

如果要下載GTF注釋文件,基因組版本尤為重要!??!

對(duì)NCBI:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/????????? ##最新版(hg38)

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/??? ## 其它版本

對(duì)于ensembl:

ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

變幻中間的release就可以拿到所有版本信息:ftp://ftp.ensembl.org/pub/

對(duì)于UCSC,那就有點(diǎn)麻煩了:

需要選擇一系列參數(shù):

http://genome.ucsc.edu/cgi-bin/hgTables

1. Navigate tohttp://genome.ucsc.edu/cgi-bin/hgTables

2. Select the following options:

clade: Mammal

genome: Human

assembly: Feb. 2009 (GRCh37/hg19)

group: Genes and Gene Predictions

track: UCSC Genes

table: knownGene

region: Select "genome" for the entire genome.

output format: GTF - gene transfer format

output file: enter a file name to save your results to a file, or leave blank to display results in the browser

3. Click 'get output'.

?現(xiàn)在重點(diǎn)來(lái)了,搞清楚版本關(guān)系了,就要下載呀!

UCSC里面下載非常方便,只需要根據(jù)基因組簡(jiǎn)稱(chēng)來(lái)拼接url即可:

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell腳本指定下載的染色體號(hào):

for i in $(seq 1 22) X Y M;

do echo $i;

wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;

## 這里也可以用NCBI的:ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前綴

done

gunzip *.gz

for i in $(seq 1 22) X Y M;

do cat chr${i}.fa >> hg19.fasta;

done

rm -fr chr*.fasta

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容