69種軟件檢測(cè)WGS結(jié)構(gòu)變異SV的算法評(píng)估

前言

最近在研究低深度WGS數(shù)據(jù)檢測(cè)SV變異,測(cè)試了很多個(gè)軟件,一直沒有一個(gè)準(zhǔn)確的結(jié)論。周一很巧地發(fā)現(xiàn)了這篇文章,作者收集了市面上幾乎所有的SV檢測(cè)工具,用真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)單獨(dú)做了測(cè)評(píng),也做了一些兩兩組合的測(cè)試,得出了比較有數(shù)據(jù)支持的建議,值得深度閱讀。

另一個(gè)特色是作者把69種的使用方法都匯總在了文章的附加文件,非常有指導(dǎo)意義。感興趣的同學(xué)可以去網(wǎng)頁(yè)下載。


文章信息

文章:Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing【全基因組數(shù)據(jù)的SV檢測(cè)算法的綜合評(píng)估】

期刊:Genome Biol 中科院生物類一區(qū)

鏈接https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6547561/

時(shí)間:2019.07.03

作者:Shunichi Kosugi,Yukihide Momozawa, Xiaoxi Liu, Chikashi Terao,Michiaki Kubo, and Yoichiro Kamatani

機(jī)構(gòu):日本橫濱鶴見區(qū)綜合醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)分析實(shí)驗(yàn)室,醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)和轉(zhuǎn)化遺傳學(xué)實(shí)驗(yàn)室


摘要

SV和CNV極大地影響了基因組中編碼的基因的功能,并導(dǎo)致多種人類疾病。但目前沒有一種算法可以高精度高準(zhǔn)確度地檢測(cè)每種類型的SV。

作者在這篇paper中利用模擬和實(shí)際的WGS數(shù)據(jù)評(píng)估了69種現(xiàn)有檢測(cè)SV的算法的性能。最后確定了combine不同算法取overlapping的方法,可以根據(jù)SV的特定類型和大小范圍準(zhǔn)確地call SV,并準(zhǔn)確確定SV的斷點(diǎn)、大小和基因型。

每個(gè)類別的SV有自己適合的算法,其中GRIDSS,Lumpy,SVseq2,SoftSV,Manta和Wham是del和dup類型最好的檢測(cè)方法。

為了提高檢測(cè)準(zhǔn)確性,需要為SV的每種類型和大小范圍選擇特異算法,并且采用合適的算法組合重復(fù)檢測(cè)取overlapping。

文中有69個(gè)文件的詳細(xì)使用說(shuō)明,可以下載附加文件4做參考?!居袝r(shí)間的話我會(huì)把算法精度高的幾個(gè)寫詳細(xì)教程】


實(shí)驗(yàn)方法

1.實(shí)驗(yàn)設(shè)計(jì)思路

匯總69種檢測(cè)SV的算法,用已知真陽(yáng)性SV的數(shù)據(jù)依次去跑這些算法,然后用不同組合的算法去重復(fù)跑數(shù)據(jù),最后評(píng)估單個(gè)算法的精度以及組合的精度。

作者把結(jié)構(gòu)變異分為了DEL(短、中、長(zhǎng)),DUP(短、中、長(zhǎng)),INS和INV。

針對(duì)模擬數(shù)據(jù),作者設(shè)計(jì)了三個(gè)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確性&檢出率;基因分型準(zhǔn)確度;斷點(diǎn)準(zhǔn)確度。

針對(duì)真實(shí)數(shù)據(jù),作者設(shè)計(jì)了兩個(gè)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確度&檢出率;耗時(shí)&內(nèi)存消耗

image.png

2.實(shí)驗(yàn)數(shù)據(jù)WGS數(shù)據(jù)

①模擬數(shù)據(jù)【模擬原始的fastq數(shù)據(jù)】
人工引進(jìn)SV,使用軟件為VarSim,引進(jìn)的8310個(gè) SVs 分別為3526個(gè) DELs,1656個(gè) DUPs,2819個(gè) INSs 和309個(gè) INVs,首先將其引入模擬父系和母系單倍體基因組。以上SV 80% 來(lái)自實(shí)驗(yàn)中檢測(cè)到的 SVs,其余的來(lái)自 VarSim 模擬器自動(dòng)生成的人工新的 SVs。

引入的已知 SVs 來(lái)自 VarSim 軟件包中包含的 DGV 變異數(shù)據(jù),大小和染色體位置忠實(shí)地再現(xiàn)了相應(yīng)的 DGV 變異。 Sim-A 數(shù)據(jù)集由父母雙方的基因組產(chǎn)生。 利用人工生物技術(shù)(ART)模擬器生成了不同長(zhǎng)度(100bp、125bp、150bp)、不同插入(400bp、500bp、600bp)和覆蓋度(10X、20X、30X、60X)的 Sim-A 數(shù)據(jù)集。

利用 PBSIM 模型生成模擬 PacBio平臺(tái)數(shù)據(jù)(Sim-A-PacBio) ,采用基于模型的方式生成模擬的父系和母系基因組,分別為: 深度10、長(zhǎng)度平均75,000和長(zhǎng)度平均8000。

其他模擬數(shù)據(jù)集(Sim-MEI、 Sim-NUMT 和 Sim-VEI)則由內(nèi)部腳本生成。 使用 ART 模擬器生成模擬reads。 Sim-MEI、 Sim-NUMT 和 Sim-VEI de 讀長(zhǎng)、插入大小和覆蓋率與 Sim-A 數(shù)據(jù)相同。

這樣得到的模擬數(shù)據(jù)集就有5個(gè),Sim-A,Sim-A-PacBio,Sim-MEI、 Sim-NUMT 和 Sim-VEI。


②真實(shí)NA12878數(shù)據(jù)

NA12878的真實(shí)數(shù)據(jù)集,包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù),是從 DDBJ ( http://www.DDBJ.nig.ac.jp )和 DNAnexus ( https://platform.DNAnexus.com/login )下載的。為了確定 SV 調(diào)用的孟德爾定律錯(cuò)誤率,也從 DDBJ 下載了 NA12891和 NA12892的 Illumina HiSeq WGS 數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集對(duì)應(yīng) NA12878的父母。 Hg00514的真實(shí)數(shù)據(jù)集,包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù),以及來(lái)自瓶中基因組(GIAB)協(xié)會(huì)的 HG002 PacBio RS 數(shù)據(jù)集[79]都是從 DDBJ 上下載的。


3. 實(shí)際數(shù)據(jù)的參考SV數(shù)據(jù)集

從DGV數(shù)據(jù)庫(kù)下載,包含1127個(gè) DELs (占總 DELs 的28%) ,1kb,3730個(gè) INSs (占總 INSs 的79%) ,1kb 或未定義長(zhǎng)度。

刪除短的 DELs 和 INSs,因?yàn)榛趌ong reads數(shù)據(jù)包含了更多的 DELs (6550)和 INSs (13,131)的大小范圍,可能比 DGV 數(shù)據(jù)更可靠。

去除了 DGV 和long reads數(shù)據(jù)中95% overlapping(1kb以上長(zhǎng)度的90%overlapping)的 DELs、 DUPs 和 INVs,總共去除了450個(gè)variants。


4.用69種算法call模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的SV

兩種測(cè)試數(shù)據(jù)的原始格式是fastq,從這一部開始,所有分析步驟都一樣:

如果軟件是直接從fastq開始分析就不做處理;

如果需要用到bam,則先用GRCh37d5做比對(duì),使用軟件統(tǒng)一為bwa men。

有一些軟件需要的bam格式不同,只需要修改marker和header,保證各軟件的輸入數(shù)據(jù)是一樣的。


實(shí)驗(yàn)結(jié)果

精確度precision和檢出率recall的公式如下,TP是真陽(yáng)性的意思

image.png
1. 基于模擬和實(shí)際WGS數(shù)據(jù)的SV檢測(cè)算法評(píng)估

作者匯總了79個(gè)SV檢測(cè)算法,這些均不需要tumor-normal試驗(yàn)對(duì)。其中10個(gè)在作者服務(wù)器運(yùn)行不了,所以只記錄了69個(gè)軟件的結(jié)果。

因?yàn)閿?shù)據(jù)庫(kù)沒有已知的易位,且varsim無(wú)法模擬易位突變,所以沒有評(píng)估易位【這也是很大的bug了】

將true定義為與參考SV按比例顯著overlapping的SV,對(duì)于 DELs、 DUPs 和 INSs,overlapping的比例為50% [對(duì)于模擬數(shù)據(jù),為80% ] ,對(duì)于INSs,overlapping的為 ±200 bp。

設(shè)置不同過(guò)濾閾值記錄準(zhǔn)確率精確度的變化。結(jié)果如下:

(F-measure精確度和檢出率的combine statistics。越高表示該軟件檢出能力越強(qiáng)。)

(1) 檢測(cè)特異性

image.png

(2) Del和Dup檢測(cè)算法的大小范圍

DEL

image.png

DUP

image.png

2. 讀長(zhǎng)較長(zhǎng)的reads的算法評(píng)估

檢測(cè)讀長(zhǎng)較長(zhǎng)reads的三個(gè)軟件分別是PBHoney/Sniffles/pbsv。結(jié)論是,即使讀長(zhǎng)較長(zhǎng)的覆蓋度為10X,短讀長(zhǎng)為30X,但基于長(zhǎng)讀長(zhǎng)的算法在call短讀數(shù)據(jù)(DEL-SS 和 DEL-S)和 INSs 時(shí)表現(xiàn)出良好的性能。

image.png

3. reads屬性對(duì)檢測(cè)精度的影響

reads深度越高,檢出率越高,但精度降低。作者選取了四個(gè)軟件,顯示了支持reads數(shù)對(duì)檢測(cè)結(jié)果的影響,如圖

image.png

reads長(zhǎng)度和reads片段插入大小對(duì)于精確度和檢出率并沒有影響


4. SV檢測(cè)斷點(diǎn)、大小和基因型的準(zhǔn)確性評(píng)估

BreakSeek, BreakSeq2 , CREST,DELLY,GRIDSS,PBHoney-NGM,pbsv, SvABA, SVseq2和 Wham 檢測(cè)DEL和dup的斷點(diǎn)、大小和基因型時(shí)表現(xiàn)最好。 CREST, Manta, FermiKit , Pamir , pbsv, SVseq2, SoftSearch , Wham在 calling INS時(shí)表現(xiàn)最好,如圖:

image.png
image.png

其余類型SV的圖和上圖類似,在文章的附件1里。

得出結(jié)論是:

對(duì)于真實(shí)數(shù)據(jù):

數(shù)據(jù)庫(kù)只提供了DUP和DEL,絕大多數(shù)算法對(duì)于DEL有95%的精度。dup大多不匹配,見附加文件的表S5。

對(duì)于模擬數(shù)據(jù):

檢測(cè)DEL時(shí),Manta, Lumpy, Pindel, and ERDS 表現(xiàn)出高精度90%和高檢出率。

檢測(cè)DUP時(shí),PennCNV-Seq, CNVnator, BICseq2 and readDepth表現(xiàn)出高精度>89%) 和高檢出率 recall (>800 TPs)。

檢測(cè)INS時(shí), Manta 表現(xiàn)出97% 的準(zhǔn)確度。 **

此外,我們的測(cè)試證明,準(zhǔn)確率和檢出率高的算法,基因型準(zhǔn)確率也很高。


5. 算法運(yùn)行時(shí)間和內(nèi)存消耗的評(píng)估

如圖,不同類型的算法消耗CPU程度不同,根據(jù)原理已分類,坐標(biāo)軸橫軸的組RP/SR/RD等等,總體而言,重新組裝的算法顯示長(zhǎng)運(yùn)行時(shí)間和大內(nèi)存消耗。需要特定比對(duì)工具的算法比BWA比對(duì)的算法時(shí)間更長(zhǎng)。Pindel作為通用檢測(cè)方法,運(yùn)行時(shí)間也很長(zhǎng)。RD和SR的算法也比其他算法消耗更大的內(nèi)存。

image.png

6. 成對(duì)組合兩種算法一起call SV然后取overlapping的方法評(píng)估

根據(jù)檢測(cè)原理,算法可分為6類:RP、 SR、 RD、 AS、 LR 和 CB ,分別是Read pairs,Split read,Read depth,Assembly,Long Read,Combined Method。

給定算法call SVs 的準(zhǔn)確率檢出率差別很大,準(zhǔn)確性取決于 SVs 的類型和大小范圍。很少有算法能夠高精度地call出所有 SV,特別是對(duì)于實(shí)際數(shù)據(jù)的 DUP、 INS 和 INV。

我們?yōu)槊糠N類型和每個(gè)大小范圍的SV選擇了51個(gè)算法,每個(gè) SV 類型和大小范圍有12-38個(gè)算法。這些算法在上述單獨(dú)測(cè)試中顯示出較高的精確度和檢出率。

我們將其兩兩組合,評(píng)估檢測(cè)水平。組合后檢測(cè)INS類型SV的水平如下,小框里斜杠分開的值分別是檢出率和精確度,上下兩行分別是模擬數(shù)據(jù)和真實(shí)數(shù)據(jù),紅色標(biāo)出的是排名前二十的軟件組合

image.png

其余的DUP【大中小】/DEL【大中小】/INV在附件1的表S15-S22

文章也做了不同類型的算法取overlapping時(shí),檢出率和精確度的變化,如圖:

image.png

結(jié)論如下:一般來(lái)說(shuō),兩個(gè)不同方法類別的算法組合比使用相同方法的兩個(gè)算法有更高的精確度,但是檢出率較低;這提示結(jié)合兩種不同方法的算法可能是更好的策略;此外,結(jié)果也表明,取兩個(gè)本身單獨(dú)精度和檢出率均很高的算法組合比不同算法檢出一般的組合效果更好。



討論

  1. 試驗(yàn)缺陷: NA12878參考 SV 數(shù)據(jù)中存在重疊的冗余 SV,因?yàn)?DGV 數(shù)據(jù)來(lái)自多個(gè)研究來(lái)源。 也許有一些錯(cuò)誤檢測(cè)的 sv 可能包括在其中。

  2. 雖然無(wú)法確定哪些是最好的,但是性能較差的列在附件1的表S20中。

  3. 在幾乎所有情況下,多種算法之間共同調(diào)用的 SVs 比單一算法調(diào)用的 SVs 表現(xiàn)出更高的精度和更低的召回率,但是精度提高和召回率降低的程度因算法的具體組合而異。

  4. 建議迭代合并overlapping

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容