前言

最近在研究低深度WGS數(shù)據(jù)檢測SV變異，測試了很多個(gè)軟件，一直沒有一個(gè)準(zhǔn)確的結(jié)論。周一很巧地發(fā)現(xiàn)了這篇文章，作者收集了市面上幾乎所有的SV檢測工具，用真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)單獨(dú)做了測評(píng)，也做了一些兩兩組合的測試，得出了比較有數(shù)據(jù)支持的建議，值得深度閱讀。

另一個(gè)特色是作者把69種的使用方法都匯總在了文章的附加文件，非常有指導(dǎo)意義。感興趣的同學(xué)可以去網(wǎng)頁下載。

文章信息

文章：Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing【全基因組數(shù)據(jù)的SV檢測算法的綜合評(píng)估】

期刊：Genome Biol 中科院生物類一區(qū)

鏈接：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6547561/

時(shí)間：2019.07.03

作者：Shunichi Kosugi,Yukihide Momozawa, Xiaoxi Liu, Chikashi Terao,Michiaki Kubo, and Yoichiro Kamatani

機(jī)構(gòu)：日本橫濱鶴見區(qū)綜合醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)分析實(shí)驗(yàn)室，醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)和轉(zhuǎn)化遺傳學(xué)實(shí)驗(yàn)室

摘要

SV和CNV極大地影響了基因組中編碼的基因的功能，并導(dǎo)致多種人類疾病。但目前沒有一種算法可以高精度高準(zhǔn)確度地檢測每種類型的SV。

作者在這篇paper中利用模擬和實(shí)際的WGS數(shù)據(jù)評(píng)估了69種現(xiàn)有檢測SV的算法的性能。最后確定了combine不同算法取overlapping的方法，可以根據(jù)SV的特定類型和大小范圍準(zhǔn)確地call SV,并準(zhǔn)確確定SV的斷點(diǎn)、大小和基因型。

每個(gè)類別的SV有自己適合的算法，其中GRIDSS，Lumpy，SVseq2，SoftSV，Manta和Wham是del和dup類型最好的檢測方法。

為了提高檢測準(zhǔn)確性，需要為SV的每種類型和大小范圍選擇特異算法，并且采用合適的算法組合重復(fù)檢測取overlapping。

文中有69個(gè)文件的詳細(xì)使用說明，可以下載附加文件4做參考?！居袝r(shí)間的話我會(huì)把算法精度高的幾個(gè)寫詳細(xì)教程】

實(shí)驗(yàn)方法

1.實(shí)驗(yàn)設(shè)計(jì)思路

匯總69種檢測SV的算法，用已知真陽性SV的數(shù)據(jù)依次去跑這些算法，然后用不同組合的算法去重復(fù)跑數(shù)據(jù)，最后評(píng)估單個(gè)算法的精度以及組合的精度。

作者把結(jié)構(gòu)變異分為了DEL（短、中、長），DUP（短、中、長），INS和INV。

針對(duì)模擬數(shù)據(jù)，作者設(shè)計(jì)了三個(gè)評(píng)估標(biāo)準(zhǔn)：準(zhǔn)確性&檢出率；基因分型準(zhǔn)確度；斷點(diǎn)準(zhǔn)確度。

針對(duì)真實(shí)數(shù)據(jù)，作者設(shè)計(jì)了兩個(gè)評(píng)估標(biāo)準(zhǔn)：準(zhǔn)確度&檢出率；耗時(shí)&內(nèi)存消耗

image.png

2.實(shí)驗(yàn)數(shù)據(jù)WGS數(shù)據(jù)

①模擬數(shù)據(jù)【模擬原始的fastq數(shù)據(jù)】
人工引進(jìn)SV，使用軟件為VarSim，引進(jìn)的8310個(gè) SVs 分別為3526個(gè) DELs，1656個(gè) DUPs，2819個(gè) INSs 和309個(gè) INVs，首先將其引入模擬父系和母系單倍體基因組。以上SV 80% 來自實(shí)驗(yàn)中檢測到的 SVs，其余的來自 VarSim 模擬器自動(dòng)生成的人工新的 SVs。

引入的已知 SVs 來自 VarSim 軟件包中包含的 DGV 變異數(shù)據(jù)，大小和染色體位置忠實(shí)地再現(xiàn)了相應(yīng)的 DGV 變異。 Sim-A 數(shù)據(jù)集由父母雙方的基因組產(chǎn)生。利用人工生物技術(shù)(ART)模擬器生成了不同長度(100bp、125bp、150bp)、不同插入(400bp、500bp、600bp)和覆蓋度(10X、20X、30X、60X)的 Sim-A 數(shù)據(jù)集。

利用 PBSIM 模型生成模擬 PacBio平臺(tái)數(shù)據(jù)(Sim-A-PacBio) ，采用基于模型的方式生成模擬的父系和母系基因組，分別為: 深度10、長度平均75,000和長度平均8000。

其他模擬數(shù)據(jù)集(Sim-MEI、 Sim-NUMT 和 Sim-VEI)則由內(nèi)部腳本生成。使用 ART 模擬器生成模擬reads。 Sim-MEI、 Sim-NUMT 和 Sim-VEI de 讀長、插入大小和覆蓋率與 Sim-A 數(shù)據(jù)相同。

這樣得到的模擬數(shù)據(jù)集就有5個(gè)，Sim-A，Sim-A-PacBio，Sim-MEI、 Sim-NUMT 和 Sim-VEI。

②真實(shí)NA12878數(shù)據(jù)

NA12878的真實(shí)數(shù)據(jù)集，包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù)，是從 DDBJ ( http://www.DDBJ.nig.ac.jp )和 DNAnexus ( https://platform.DNAnexus.com/login )下載的。為了確定 SV 調(diào)用的孟德爾定律錯(cuò)誤率，也從 DDBJ 下載了 NA12891和 NA12892的 Illumina HiSeq WGS 數(shù)據(jù)集，這兩個(gè)數(shù)據(jù)集對(duì)應(yīng) NA12878的父母。 Hg00514的真實(shí)數(shù)據(jù)集，包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù)，以及來自瓶中基因組(GIAB)協(xié)會(huì)的 HG002 PacBio RS 數(shù)據(jù)集[79]都是從 DDBJ 上下載的。

3. 實(shí)際數(shù)據(jù)的參考SV數(shù)據(jù)集

從DGV數(shù)據(jù)庫下載，包含1127個(gè) DELs (占總 DELs 的28%) ，1kb，3730個(gè) INSs (占總 INSs 的79%) ，1kb 或未定義長度。

刪除短的 DELs 和 INSs，因?yàn)榛趌ong reads數(shù)據(jù)包含了更多的 DELs (6550)和 INSs (13,131)的大小范圍，可能比 DGV 數(shù)據(jù)更可靠。

去除了 DGV 和long reads數(shù)據(jù)中95% overlapping(1kb以上長度的90%overlapping)的 DELs、 DUPs 和 INVs，總共去除了450個(gè)variants。

4.用69種算法call模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的SV

兩種測試數(shù)據(jù)的原始格式是fastq，從這一部開始，所有分析步驟都一樣：

如果軟件是直接從fastq開始分析就不做處理；

如果需要用到bam，則先用GRCh37d5做比對(duì)，使用軟件統(tǒng)一為bwa men。

有一些軟件需要的bam格式不同，只需要修改marker和header，保證各軟件的輸入數(shù)據(jù)是一樣的。

實(shí)驗(yàn)結(jié)果

精確度precision和檢出率recall的公式如下，TP是真陽性的意思

image.png

1. 基于模擬和實(shí)際WGS數(shù)據(jù)的SV檢測算法評(píng)估

作者匯總了79個(gè)SV檢測算法，這些均不需要tumor-normal試驗(yàn)對(duì)。其中10個(gè)在作者服務(wù)器運(yùn)行不了，所以只記錄了69個(gè)軟件的結(jié)果。

因?yàn)閿?shù)據(jù)庫沒有已知的易位，且varsim無法模擬易位突變，所以沒有評(píng)估易位【這也是很大的bug了】

將true定義為與參考SV按比例顯著overlapping的SV，對(duì)于 DELs、 DUPs 和 INSs，overlapping的比例為50% [對(duì)于模擬數(shù)據(jù)，為80% ] ，對(duì)于INSs，overlapping的為 ±200 bp。

設(shè)置不同過濾閾值記錄準(zhǔn)確率精確度的變化。結(jié)果如下:

(F-measure精確度和檢出率的combine statistics。越高表示該軟件檢出能力越強(qiáng)。)

(1) 檢測特異性

image.png

(2) Del和Dup檢測算法的大小范圍

DEL

image.png

DUP

image.png

2. 讀長較長的reads的算法評(píng)估

檢測讀長較長reads的三個(gè)軟件分別是PBHoney/Sniffles/pbsv。結(jié)論是，即使讀長較長的覆蓋度為10X，短讀長為30X，但基于長讀長的算法在call短讀數(shù)據(jù)(DEL-SS 和 DEL-S)和 INSs 時(shí)表現(xiàn)出良好的性能。

image.png

3. reads屬性對(duì)檢測精度的影響

reads深度越高，檢出率越高，但精度降低。作者選取了四個(gè)軟件，顯示了支持reads數(shù)對(duì)檢測結(jié)果的影響，如圖

image.png

reads長度和reads片段插入大小對(duì)于精確度和檢出率并沒有影響

4. SV檢測斷點(diǎn)、大小和基因型的準(zhǔn)確性評(píng)估

BreakSeek, BreakSeq2 ， CREST，DELLY，GRIDSS，PBHoney-NGM，pbsv, SvABA, SVseq2和 Wham 檢測DEL和dup的斷點(diǎn)、大小和基因型時(shí)表現(xiàn)最好。 CREST, Manta, FermiKit , Pamir , pbsv, SVseq2, SoftSearch , Wham在 calling INS時(shí)表現(xiàn)最好，如圖：

image.png

其余類型SV的圖和上圖類似，在文章的附件1里。

得出結(jié)論是：

對(duì)于真實(shí)數(shù)據(jù):

數(shù)據(jù)庫只提供了DUP和DEL，絕大多數(shù)算法對(duì)于DEL有95%的精度。dup大多不匹配，見附加文件的表S5。

對(duì)于模擬數(shù)據(jù)：

檢測DEL時(shí)，Manta, Lumpy, Pindel, and ERDS 表現(xiàn)出高精度90%和高檢出率。

檢測DUP時(shí)，PennCNV-Seq, CNVnator, BICseq2 and readDepth表現(xiàn)出高精度>89%) 和高檢出率 recall (>800 TPs)。

檢測INS時(shí), Manta 表現(xiàn)出97% 的準(zhǔn)確度。 **

此外，我們的測試證明，準(zhǔn)確率和檢出率高的算法，基因型準(zhǔn)確率也很高。

5. 算法運(yùn)行時(shí)間和內(nèi)存消耗的評(píng)估

如圖，不同類型的算法消耗CPU程度不同，根據(jù)原理已分類，坐標(biāo)軸橫軸的組RP/SR/RD等等，總體而言，重新組裝的算法顯示長運(yùn)行時(shí)間和大內(nèi)存消耗。需要特定比對(duì)工具的算法比BWA比對(duì)的算法時(shí)間更長。Pindel作為通用檢測方法，運(yùn)行時(shí)間也很長。RD和SR的算法也比其他算法消耗更大的內(nèi)存。

image.png

6. 成對(duì)組合兩種算法一起call SV然后取overlapping的方法評(píng)估

根據(jù)檢測原理，算法可分為6類：RP、 SR、 RD、 AS、 LR 和 CB ，分別是Read pairs，Split read，Read depth，Assembly，Long Read，Combined Method。

給定算法call SVs 的準(zhǔn)確率檢出率差別很大，準(zhǔn)確性取決于 SVs 的類型和大小范圍。很少有算法能夠高精度地call出所有 SV，特別是對(duì)于實(shí)際數(shù)據(jù)的 DUP、 INS 和 INV。

我們?yōu)槊糠N類型和每個(gè)大小范圍的SV選擇了51個(gè)算法，每個(gè) SV 類型和大小范圍有12-38個(gè)算法。這些算法在上述單獨(dú)測試中顯示出較高的精確度和檢出率。

我們將其兩兩組合，評(píng)估檢測水平。組合后檢測INS類型SV的水平如下，小框里斜杠分開的值分別是檢出率和精確度，上下兩行分別是模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)，紅色標(biāo)出的是排名前二十的軟件組合

image.png

其余的DUP【大中小】/DEL【大中小】/INV在附件1的表S15-S22

文章也做了不同類型的算法取overlapping時(shí)，檢出率和精確度的變化，如圖：

image.png

結(jié)論如下：一般來說，兩個(gè)不同方法類別的算法組合比使用相同方法的兩個(gè)算法有更高的精確度，但是檢出率較低；這提示結(jié)合兩種不同方法的算法可能是更好的策略；此外，結(jié)果也表明，取兩個(gè)本身單獨(dú)精度和檢出率均很高的算法組合比不同算法檢出一般的組合效果更好。

討論

試驗(yàn)缺陷： NA12878參考 SV 數(shù)據(jù)中存在重疊的冗余 SV，因?yàn)?DGV 數(shù)據(jù)來自多個(gè)研究來源。也許有一些錯(cuò)誤檢測的 sv 可能包括在其中。
雖然無法確定哪些是最好的，但是性能較差的列在附件1的表S20中。
在幾乎所有情況下，多種算法之間共同調(diào)用的 SVs 比單一算法調(diào)用的 SVs 表現(xiàn)出更高的精度和更低的召回率，但是精度提高和召回率降低的程度因算法的具體組合而異。
建議迭代合并overlapping

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

69種軟件檢測WGS結(jié)構(gòu)變異SV的算法評(píng)估

69種軟件檢測WGS結(jié)構(gòu)變異SV的算法評(píng)估

前言

文章信息

摘要