從NCBI下載一個(gè)物種的基因組文件。假設(shè)我們要下載一個(gè)叫做Tetranychus urticae的物種,首先在NCBI上genome中搜索Tetranychus urticae。得到如下截圖:

image.png
然后復(fù)制genome和gff的下載地址
在xshell中下載,命令如下
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.fna.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/239/435/GCF_000239435.1_ASM23943v1/GCF_000239435.1_ASM23943v1_genomic.gff.gz
解壓:
gunzip GCF_000239435.1_ASM23943v1_genomic.fna.gz
gunzip GCF_000239435.1_ASM23943v1_genomic.gff.gz
查看gff文件
less -S GCF_000239435.1_ASM23943v1_genomic.gff

image.png
可以看出關(guān)于基因信息在第三列,統(tǒng)計(jì)該物種注釋出的基因數(shù)目:
cut -f3 GCF_000239435.1_ASM23943v1_genomic.gff|grep 'gene'|grep -v 'pseudogene'|wc -l
***pseudogene并不是我們想要的,因此,在上述命令中我把它去除了。