比如我有一包含許多基因的ID文件,和所有ID對(duì)應(yīng)的序列文件,文件內(nèi)容如下
cat geneid.txt
gene1
gene11
gene34
gene57
gene78
gene789
less -S gene.fa
>gene1 length=2
AT
>gene2 length=6
ATCGGT
>gene3 length=8
ATATATCG
>gene4 length=15
ATATATATATATATC
如果我想去掉geneid.txt里面所有基因?qū)?yīng)的序列該怎么做?
用seqkit軟件就可輕松解決
- 1.去掉單個(gè)序列
seqkit grep -v -p "gene2" gene.fa>nogene2.fa
- 2.去掉一批序列
seqkit grep -v -f geneid.txt gene.fa >nogeneid.fa
相比于grep命令與python腳本,seqkit軟件節(jié)省了時(shí)間,是一個(gè)非常不錯(cuò)的選擇!