軟件介紹
FinisherSC 是一個(gè)能夠利用三代測(cè)序的 raw subreads 對(duì)基因組進(jìn)行升級(jí)的軟件。其是一個(gè)Python寫的軟件,能夠并行化調(diào)用MUMmer軟件進(jìn)行序列比對(duì),若2條 Contigs 序列末端有且僅有一個(gè)連接對(duì)象,則整合兩條contigs;此外,軟件還可以使用 String graphs 方法利用屬于Repeat 的 Overlap 進(jìn)行 Contigs 整合。
MUMmer 版本問題
FinisherSC 最近一次更新是在 3 May 2016,軟件使用的版本為 MUMmer3.23。但MUMmer版本并沒有停止在MUMmer3,在2018年,MUMmer 迎來了一個(gè)版本更迭MUMmer4。
journal.pcbi.1005944.t003.PNG
從來自MUMmer4文章的表格來看,速度及支持的數(shù)據(jù)量上有了明顯的提升。既然MUMmer4 優(yōu)于 MUMmer 3.23。那么在運(yùn)行FinisherSC時(shí)可不可以替換呢?經(jīng)過本人實(shí)際測(cè)試,答案是肯定的。只是有一點(diǎn)特殊的就是,如果使用 MUMmer4 并且設(shè)置 -par 32 就會(huì)出現(xiàn)報(bào)錯(cuò)(本人使用服務(wù)器的線程為32,內(nèi)存為128G)。但如果不做設(shè)置,則可以順利跑完。說道這里你可能會(huì)有疑問,MUMmer 3.23 可以設(shè)置-par 32。而 MUMmer4 不做這個(gè)設(shè)置,那時(shí)間上會(huì)不會(huì)是 MUMmer4 花費(fèi)的時(shí)間更多呢? 答案是否定的,經(jīng)過本人實(shí)測(cè), MUMmer4耗時(shí):MUMmer 3.23耗時(shí)= 1: 6 左右。
我目前的能力還不夠,你讓我改軟件代碼可能做不到,在這提出這個(gè)發(fā)現(xiàn),以供有興趣的研究。如果你和我一樣能力還不夠,希望該文章對(duì)你有幫助。
代碼實(shí)測(cè)
# 測(cè)試對(duì)象 contigs.fasta 86M ;raw_reads.fasta 8.73G
# MUMmer4
python /opt/biosoft/finishingTool/finisherSC.py -par 32 ./ /opt/biosoft/mummer4/bin/
## 報(bào)錯(cuò)如下
# ./relatedReads_Double.fasta: 24000 sequences, 427024630 bp => dividing into 32 parts ................................ OK
# All done, 5 seconds elapsed
# nProc 32
# 32
# libgomp: Thread creation failed: Resource temporarily unavailable
# libgomp: Thread creation failed: Resource temporarily unavailable
# libgomp: Thread creation failed: Resource temporarily unavailable
# libgomp: Thread creation failed: Resource temporarily unavailable
# libgomp: Thread creation failed: Resource temporarily unavailable
# libgomp: Thread creation failed: Resource temporarily unavailable
# libgomp: Thread creation failed: Resource temporarily unavailable
# sh: fork: retry: 資源暫時(shí)不可用
# ERROR: Could not parse delta file, ./outGapFillRefine22.delta
# error no: 402
# ERROR: Could not parse delta file, ./outGapFillRefine28.delta
# error no: 402
# ERROR: Could not parse delta file, ./outGapFillRefine24.delta
# error no: 402
# ERROR: Could not parse delta file, ./outGapFillRefine05.delta
# error no: 402
# libgomp: Thread creation failed: Resource temporarily unavailable
# ERROR: Could not parse delta file, ./outGapFillRefine18.delta
# error no: 402
# ERROR: Could not parse delta file, ./outGapFillRefine01.delta
# error no: 402
# ERROR: Could not parse delta file, ./outGapFillRefine16.delta
# error no: 402
# ERROR: Could not parse delta file, ./outGapFillRefine32.delta
# error no: 402
python /opt/biosoft/finishingTool/finisherSC.py ./ /opt/biosoft/mummer4/bin/
# Time 4040.41538692 s
## 沒有報(bào)錯(cuò)
# MUMmer3.23
python /opt/biosoft/finishingTool/finisherSC.py -par 32 ./ /opt/biosoft/MUMmer3.23/
# Time 22565.2418311 s
參考
NGS生物信息學(xué)分析 V6.0 陳連福 鄭越
MUMmer4: A fast and versatile genome alignment system