我們在進(jìn)行基因家族分析時,對轉(zhuǎn)錄組或者基因組進(jìn)行分析時,首先要做的就是需要剔除冗余序列,無論是基因組序列還是轉(zhuǎn)錄組序列都需要去除冗余序列,一般都需要使用cd-hit去除冗余序列,但是還會有重復(fù)序列需要手動刪除,因此在手動查詢重復(fù)時需要利用其它的軟件(seqkit,一個偉大的處理fas序列的處理工具)進(jìn)行處理。在所有的這些都進(jìn)行后,再進(jìn)行后續(xù)的cafe分析等,要不然需要重新進(jìn)行分析。
? -n, --by-name by full name instead of just id
? -s, --by-seq? ? ? ? ? ? ? ? by seq
? -D, --dup-num-file string? ? file to save number and list of duplicated seqs
? -d, --dup-seqs-file string? file to save duplicated seqs
? -h, --help? ? ? ? ? ? ? ? ? help for rmdup
? -i, --ignore-case? ? ? ? ? ? ignore case
? -P, --only-positive-strand? only considering positive strand when comparing by sequence
seqkit rmdup -s -i file.fasta > file-clean.fasta 根據(jù)序列相似性刪除file中的重復(fù)序列后,只保存重復(fù)序列其中一個,存在一個新文件file-clean中。
seqkit rmdup -s -i file.fasta > file-clean.fasta 根據(jù)序列名字刪除,保留其中的一個
seqkit rmdup -s -i file.fasta -d file1.fasta -D file2.fasta??將file中的重復(fù)序列ID和重復(fù)序列存到1和2兩個文件夾中