寫在開頭
????因為一直在進行call SVs的課題,收集了一些相關(guān)軟件,今天給各位介紹一款2020年5月份發(fā)布的MUMandCo,也可以寫作MUM&Co。
????文章地址:https://academic.oup.com/bioinformatics/article/36/10/3242/5756209
????Github地址:https://github.com/SAMtoBAM/MUMandCo
軟件簡介
????MUMandCo是一款基于MUMmer(3或4都可以)中nucmer算法檢測SVs的工具。能夠檢測到長度>50bp的插入(insertions)、缺失(deletions)、串聯(lián)重復(fù)(tandem duplications,>50bp)、倒位(inversions)以及易位(translocations,>1kb)。在模擬數(shù)據(jù)集與真實數(shù)據(jù)集中都有不錯的表現(xiàn)。
????在軟件中應(yīng)用了g-(global)與m-(many-to-many)兩種過濾方法,對nucmer產(chǎn)生結(jié)果進行篩選。g-用于檢測易位、大的倒位以及可能的插入缺失,ref和qry之間的gaps被認為是插入缺失;m-則被應(yīng)用于尋找潛在的倒位和重復(fù)。
????先利用兩次g-比對來確認正確的倒位與插入缺失(先篩選潛在位點,第二遍確認),m-比對的結(jié)果也與之比較,最終生成tsv文件,包括ref與qry的染色體和位點坐標信息,以及SVs的長度類型等。
????在文章中,開發(fā)者用MUMandCo與Assemblytics、MUMmer中的show-diff、paftools、SVrefine(SVanalyzer)以及SVMU相比較,用酵母、擬南芥及人類11-20號染色體三組數(shù)據(jù)集進行測試,結(jié)果如下圖(SVrefine據(jù)說是幾乎call不出來就沒放結(jié)果了hhhh):

????可以看得出來其表現(xiàn)還是很不錯的,接下來介紹一下這款軟件的用法吧。
軟件用法
????首先,老生常談從github上把軟件下載下來:
git clone https://github.com/SAMtoBAM/MUMandCo.git
????軟件是用shell語言寫的,沒有封裝也不需要安裝,可以直接使用。先用自帶的測試數(shù)據(jù)試試看(在下載的yeast_DEL100_test目錄下):
bash mumandco_v2.4.sh -r ./yeast.tidy.fa -q ./yeast_tidy_DEL100.fa -g 12500000 -o DEL100_test
這里一定要用bash,用sh會出錯?。ㄔ斍閰⒖嘉业纳弦黄啎╆P(guān)于這款軟件參數(shù)部分的說明,非常簡單好用,基因組大小填寫ref與qry中較大的一個就可以:
-r or --reference_genome path to reference genome
-q or --query_genome path to query genome
-g or --genome_size size of genome
-o or --output output prefix
????結(jié)果出來得非常快,我們來看看結(jié)果目錄,一共分為三個部分:
????1. 用于SVs檢測的目錄,里面主要是中間產(chǎn)生的delta數(shù)據(jù);

????2. SVs檢測的summary文本文件;

????3. SVs檢測的tsv結(jié)果文件。

????最后要說明的是,MUMandCo中有一個隱藏功能,即用Blast標記出插入缺失,這項功能需要Blast與Samtools的前置安裝,如果開啟需要修改腳本中的指令:
"blast_step = no" ---> yes