2021-評估不同軟件組合檢測ONT數(shù)據(jù)中germline SV的表現(xiàn)

1.Bolognini, D. & Magi, A. Evaluation of Germline Structural Variant Calling Methods for Nanopore Sequencing Data.Frontiers Genetics12, 761791 (2021).

總結:1)檢測germline SV,深度推薦20x以上;2)支持reads數(shù)閾值設置,5-10條(得跟數(shù)據(jù)量相關呀,本文最高深度約50x,但是考慮到20x以上F值變化不大,所以這個閾值,最多能代表20x以上深度數(shù)據(jù)的設置);3)檢測軟件cuteSV相對其他軟件表現(xiàn)更好,組合考慮時比對軟件表現(xiàn)最好NGMLR,但是minimap2就差一點點,可以根據(jù)情況選擇;4)多軟件共同應用策略,在提高準確性方面有一定效果,但是看F值的話,cuteSV(單獨與組合相對表現(xiàn)最好)的單獨和組合的F值沒有提升效果。


摘要:

使用模擬和真實的ONT測序數(shù)據(jù),評估了5種結構變異檢測軟件(4種比對方法)的表現(xiàn)。關注點主要在比對,測序深度(down-sampling獲得不同深度數(shù)據(jù)),和突變allele的深度對于不同類型、不同長度SV的檢測和分型的影響。

評估的5種SV檢測軟件分別為:Sniffles、SVIM、cuteSV、npInv(只檢測倒位)、pbsv。4種比對軟件分別為:minimap2、NGMLR、Lra、pbmm2。

方法:

數(shù)據(jù)集:評估利用的測序數(shù)據(jù),為GIAB項目中NA24385的ONT實測數(shù)據(jù)(約157G,只有7281插入和5464缺失),以及用VISOR模擬的數(shù)據(jù)SI00001(約154G,模擬了5027缺失,5027插入,300重復,300倒位,22易位)。金標準數(shù)據(jù)集為此樣本GIAB和模擬數(shù)據(jù)的真陽SV數(shù)據(jù)集。

統(tǒng)計工具:統(tǒng)計precision和recall使用的truvari工具。SURIVOR統(tǒng)計檢測的SV與真陽SV的交集;

結果:

1)NA24385數(shù)據(jù)集,SVIM經(jīng)minimap2比對,比其他組合檢測到更多的deletion(9566)和insertion(12818);用NGMLR比對時,pbsv檢測到更多的重復(1941);用minimap2比對時,cuteSV檢測到更多的倒位(156)和易位(37);「supp. figure S2」

SI00001數(shù)據(jù)集,cuteSV經(jīng)minimap2比對,檢出更多的插入和缺失;SVIM經(jīng)minimap2比對先出更多的重復;cuteSV經(jīng)NGMLR比對檢出更多的倒位;pbsv經(jīng)NGMLR比對檢出更多的易位;「supp. figure S3」

2)minimap2比對后檢測SV,與真陽SV數(shù)據(jù)集,交集最多的變異類型為缺失(4022 for the NA24385 dataset and 3368 for SI00001))和插入(4054 for the NA24385 dataset and 3101 for SI00001);「supp. figure S4」;NGMLR和Lra比對后趨勢類似;

3)利用truvari統(tǒng)計precision,recall和F值,對于NA24385數(shù)據(jù)集,cuteSV經(jīng)NGMLR比對后得到最高的SV檢測和分型F值(分別約0.93和0.91);對于SI00001數(shù)據(jù)集,SVIM經(jīng)minimap2比對后得到最高的SV檢測F值(約0.93),cuteSV經(jīng)NGMLR比對后得到最高的SV基因分型F值(約0.92);總體來說,cuteSV,SVIM和pbsv表現(xiàn)相當,F(xiàn)值均約0.9(cuteSV相對表現(xiàn)最好);Sniffles具有最低的recall值,特別是在SI00001數(shù)據(jù)集經(jīng)Lra比對后?!窮igure 1, supp table S4」

4)對于檢測deletion,cuteSV, SVIM和 pbsv都能獲得大于0.9的F值;但是對于insertion,NA24385數(shù)據(jù)集只有cuteSV經(jīng)NGMLR比對后能得到,SI00001數(shù)據(jù)集也只有cuteSV經(jīng)NGMLR/minimap2比對后能獲得大于0.9的F值。對于重復,SVIM和cuteSV經(jīng)NGMLR比對后比其他組合表現(xiàn)好;對于倒位,SVIM+minimap2,Sniffles+minimap2/NGMLR,npInv+minimap2, pbsv可以獲得大于0.9的F值。pbsv和SVIM搭配minimap2檢測易位獲得最好的F值約0.9;Lra比對時任何檢測軟件都沒有得到高質量的重復或者易位檢測結果?!竤upp Figure S7」

5)通過down sampling抽取數(shù)據(jù),構建5X, 10X, 15X, 20X, 25X, and 35X的數(shù)據(jù),評估深度對檢測SV的影響。從低深度到中高深度增加是對于SV檢測和分型提到F值都有顯著影響,高深度時再增加效果就不明顯了。對于低深度NA24385數(shù)據(jù),cuteSV經(jīng)NGMLR比對后獲得最高的F值(SV檢測約0.8,分型約0.72),sniffles經(jīng)Lra比對獲得最低的F值(SV檢測約0.6,分型約0.28)。SI00001低深度數(shù)據(jù),cuteSV經(jīng)NGMLR比對有最高的SV檢測F值約0.7,pbsv的F值最低約0.43;sniffles經(jīng)NGMLR比對有最高的SV分型F值約0.61,SVIM經(jīng)Lra比對最低約0.32。「supp table S5,截圖一部分,整體表現(xiàn)較好的組合,F(xiàn)值從數(shù)據(jù)看20x以上增加不明顯了」

6)另外測試了SV檢測時,設置最少支持的reads數(shù)的閾值,recall會隨著閾值升高降低(precision相反),最終推薦的一個較好的平衡范圍為選擇5-10條reads支持(這得跟數(shù)據(jù)量相關呀,本文最高深度約50x,但是考慮到20x以上F值變化不大,所以這個閾值,最多僅能代表20x以上深度數(shù)據(jù)的設置)?!窮igure 3, supp table S6(截圖部分)」

7)利用SURVIVOR產(chǎn)生不同組合檢出的數(shù)據(jù),測試了怎么通過不同方法組合降低假陽性結果,結果顯示對于NA24385數(shù)據(jù)集,通過組合經(jīng)NGMLR比對后cuteSV,sniffles,SVIM的檢測結果,SV檢測的準確性和分型的準確性,相對單個軟件獲得的最佳準確性值,分別提高約2%和3%。consensus數(shù)據(jù)集準確性與其他組合相當約0.96,但是recall約0.89比其他組合高。對于SI00001數(shù)據(jù)集,組合策略沒有顯示出相對與單個軟件檢測顯著的precision的提高,幾乎所有組合的precision都約1,另外單獨sniffles經(jīng)NGMLR比對后的precision也大于0.99。「supp table S7」。

討論:

推薦使用cuteSV,在檢測SV和分型時F值都表現(xiàn)不錯。分析低深度數(shù)據(jù)時,看用戶自己關注點是precision還是recall,sniffles在考慮更好的precision時可以使用(但是不推薦用于分型),cuteSV或者SVIM則可以在考慮更高的recall時使用。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容