使用seqkit剔除重復(fù)的fas序列

我們在進(jìn)行基因家族分析時,對轉(zhuǎn)錄組或者基因組進(jìn)行分析時,首先要做的就是需要剔除冗余序列,無論是基因組序列還是轉(zhuǎn)錄組序列都需要去除冗余序列,一般都需要使用cd-hit去除冗余序列,但是還會有重復(fù)序列需要手動刪除,因此在手動查詢重復(fù)時需要利用其它的軟件(seqkit,一個偉大的處理fas序列的處理工具)進(jìn)行處理。在所有的這些都進(jìn)行后,再進(jìn)行后續(xù)的cafe分析等,要不然需要重新進(jìn)行分析。

? -n, --by-name by full name instead of just id

? -s, --by-seq? ? ? ? ? ? ? ? by seq

? -D, --dup-num-file string? ? file to save number and list of duplicated seqs

? -d, --dup-seqs-file string? file to save duplicated seqs

? -h, --help? ? ? ? ? ? ? ? ? help for rmdup

? -i, --ignore-case? ? ? ? ? ? ignore case

? -P, --only-positive-strand? only considering positive strand when comparing by sequence

seqkit rmdup -s -i file.fasta > file-clean.fasta 根據(jù)序列相似性刪除file中的重復(fù)序列后,只保存重復(fù)序列其中一個,存在一個新文件file-clean中。

seqkit rmdup -s -i file.fasta > file-clean.fasta 根據(jù)序列名字刪除,保留其中的一個

seqkit rmdup -s -i file.fasta -d file1.fasta -D file2.fasta??將file中的重復(fù)序列ID和重復(fù)序列存到1和2兩個文件夾中

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容