使用blast在魚的基因組上識別C-lectin基因
1. 下載基因組
wget -c?ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/994/505/GCA_002994505.1_ASM299450
v1/GCA_002994505.1_ASM299450v1_genomic.fna.gz -O?Seriola_quinqueradiata.fa.gz
gunzip?Seriola_quinqueradiata.fa.gz
2. 獲得C-lectin基因序列
cat > C_lectin.fa
>C-LECTIN
MKTLLILSVVLCAALSVRAAAVVPAEAATAQLGDKAAPEPEAVKDTAVEDTAVEETAVEDTAVEETAVEDTAVEETAVED
TAVEETAVEDTAVEDTAVEDTAVEDTAVEDTAVEETAVEDTAVEDTAVEDTAVAAGRPAGLRQTRLSFCLDGWQSFSGKC
YFLANHPDSWANAERFCASYEGSLASVGSIWEYNFLQRMVKTGGHAFAWIGGYYFQGEWRWEDGSRFDY
SNWDTPRSTAYYQCLLLNSQVSMGWSNNGCNMNFPFVCQVRQLNC
3. 構建基因組數(shù)據(jù)庫
makeblastdb -in?Seriola_quinqueradiata.fa?-dbtype nucl -input_type fasta -out SerRivdb
-in 輸入的建庫序列文件
-dbtype 數(shù)據(jù)庫的類型(核酸或蛋白質)
-input_type? 輸入的文件格式
-out 產生數(shù)據(jù)庫的文件前綴
4. blast gene to genome

tblastn -db?SerRivdb -query C_lectin.fa -out blastout.txt
獲得更精確易讀的結果
tblastn -db?SerRivdb -query?C_lectin.fa?-outfmt '6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs salltitles' -num_threads 16 -out blastout2 .txt
挑選結果
more blastout2.txt | awk '$3>50'
確認結果,將比對篩選得到的序列再回比到NR數(shù)據(jù)庫,確認比對的正確性。