MATERIALS AND METHODS
1.Local realignments and InDel calling
VarDict 通過局部重對(duì)齊(包括有監(jiān)督的和無監(jiān)督的)提高InDel的等位基因頻率統(tǒng)計(jì)。有些InDel比read的長(zhǎng)度或者核心部分短很多,導(dǎo)致大多數(shù)aligners會(huì)將其與gap對(duì)齊,出現(xiàn)mismatch被強(qiáng)制對(duì)齊,當(dāng)mismatches出現(xiàn)很多時(shí)soft-clipping。下面給出一個(gè)由IGV做出的例子。很多時(shí)候mismatch和soft-clipping會(huì)被忽略或者錯(cuò)誤處理,實(shí)際上這些是InDel的重要判定依據(jù)。當(dāng)這樣一個(gè)InDel在對(duì)齊中被發(fā)現(xiàn)時(shí),VarDict會(huì)觸發(fā)有監(jiān)督的局部重新對(duì)齊,識(shí)別存在InDel的3'和5'端Read的不匹配對(duì)齊,并添加它們以支持InDel使等位基因頻率增加。無監(jiān)督的局部重新對(duì)齊時(shí),VarDict掃描soft-clipping附近的局部序列,尋找較大的InDel。Vardict首先從同一基因組位置的 soft-clippings Reads中獲得一致序列。如果可以找到一致序列,vardict然后使用它在用戶可定義的距離(默認(rèn)為125 bp)內(nèi)查找無間隙匹配,但允許小于等于3個(gè)堿基的不匹配。當(dāng)找到匹配并遠(yuǎn)離斷點(diǎn)時(shí),調(diào)用刪除;當(dāng)匹配結(jié)束部分與斷點(diǎn)相鄰時(shí),調(diào)用插入。如果不能調(diào)用indel,vardict通過5′和3′端soft-cliping來識(shí)別連續(xù)的剪裁良好的序列(通常在5 bp內(nèi)),假設(shè)它們?cè)诓迦氲娜我庖粋?cè),并確定它們是否有匹配的端。如果發(fā)現(xiàn)不匹配≤3,則調(diào)用大插入。該方法允許調(diào)用大于讀取長(zhǎng)度的插入,以及大型復(fù)雜變量。

Detecting complex variants
VarDict可以檢測(cè)復(fù)雜的變異,刪除和插入的組合情況,其他的方法錯(cuò)誤檢測(cè)或超出。據(jù)觀察,在一條read中復(fù)合的proximal (<10 bp) InDels和mismatch通常被看成一個(gè)復(fù)雜變異。VarDict將一個(gè)復(fù)雜變異標(biāo)記為一個(gè)變異而非多個(gè)獨(dú)立的。當(dāng)一條read中檢測(cè)到一個(gè)InDel時(shí),VarDict進(jìn)行遞歸掃描尋找是否存在 InDel (within 10 bp) 或者mismatches (within 3 bp),若存在則組合為一個(gè)復(fù)雜變異。該規(guī)則適用于連續(xù)mismatches,檢測(cè)MNVs