VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research

VarDict 原文鏈接

MATERIALS AND METHODS

1.Local realignments and InDel calling

VarDict 通過局部重對(duì)齊(包括有監(jiān)督的和無監(jiān)督的)提高InDel的等位基因頻率統(tǒng)計(jì)。有些InDel比read的長(zhǎng)度或者核心部分短很多,導(dǎo)致大多數(shù)aligners會(huì)將其與gap對(duì)齊,出現(xiàn)mismatch被強(qiáng)制對(duì)齊,當(dāng)mismatches出現(xiàn)很多時(shí)soft-clipping。下面給出一個(gè)由IGV做出的例子。很多時(shí)候mismatch和soft-clipping會(huì)被忽略或者錯(cuò)誤處理,實(shí)際上這些是InDel的重要判定依據(jù)。當(dāng)這樣一個(gè)InDel在對(duì)齊中被發(fā)現(xiàn)時(shí),VarDict會(huì)觸發(fā)有監(jiān)督的局部重新對(duì)齊,識(shí)別存在InDel的3'和5'端Read的不匹配對(duì)齊,并添加它們以支持InDel使等位基因頻率增加。無監(jiān)督的局部重新對(duì)齊時(shí),VarDict掃描soft-clipping附近的局部序列,尋找較大的InDel。Vardict首先從同一基因組位置的 soft-clippings Reads中獲得一致序列。如果可以找到一致序列,vardict然后使用它在用戶可定義的距離(默認(rèn)為125 bp)內(nèi)查找無間隙匹配,但允許小于等于3個(gè)堿基的不匹配。當(dāng)找到匹配并遠(yuǎn)離斷點(diǎn)時(shí),調(diào)用刪除;當(dāng)匹配結(jié)束部分與斷點(diǎn)相鄰時(shí),調(diào)用插入。如果不能調(diào)用indel,vardict通過5′和3′端soft-cliping來識(shí)別連續(xù)的剪裁良好的序列(通常在5 bp內(nèi)),假設(shè)它們?cè)诓迦氲娜我庖粋?cè),并確定它們是否有匹配的端。如果發(fā)現(xiàn)不匹配≤3,則調(diào)用大插入。該方法允許調(diào)用大于讀取長(zhǎng)度的插入,以及大型復(fù)雜變量。

Figure 1. 這個(gè)例子顯示了pc-9肺癌細(xì)胞系中egfr外顯子19的15 bp缺失突變。最上面的灰色柱狀圖表示該位置reads中堿基的數(shù)量統(tǒng)計(jì),灰色細(xì)線表示一條read,黑色是表示缺失,彩色表示soft-clipped reads與參考序列不同,不能對(duì)齊,顏色對(duì)應(yīng)著ATCG;
Detecting complex variants

VarDict可以檢測(cè)復(fù)雜的變異,刪除和插入的組合情況,其他的方法錯(cuò)誤檢測(cè)或超出。據(jù)觀察,在一條read中復(fù)合的proximal (<10 bp) InDels和mismatch通常被看成一個(gè)復(fù)雜變異。VarDict將一個(gè)復(fù)雜變異標(biāo)記為一個(gè)變異而非多個(gè)獨(dú)立的。當(dāng)一條read中檢測(cè)到一個(gè)InDel時(shí),VarDict進(jìn)行遞歸掃描尋找是否存在 InDel (within 10 bp) 或者mismatches (within 3 bp),若存在則組合為一個(gè)復(fù)雜變異。該規(guī)則適用于連續(xù)mismatches,檢測(cè)MNVs

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • ORA-00001: 違反唯一約束條件 (.) 錯(cuò)誤說明:當(dāng)在唯一索引所對(duì)應(yīng)的列上鍵入重復(fù)值時(shí),會(huì)觸發(fā)此異常。 O...
    我想起個(gè)好名字閱讀 5,952評(píng)論 0 9
  • Corresponding author: Li DingDirector of Computational Bi...
    小米羊愛學(xué)術(shù)閱讀 1,510評(píng)論 0 0
  • 官網(wǎng) 中文版本 好的網(wǎng)站 Content-type: text/htmlBASH Section: User ...
    不排版閱讀 4,707評(píng)論 0 5
  • wes定義: 全外顯子組測(cè)序,是利用目標(biāo)序列捕獲技術(shù), 將全基因組編碼基因外顯子區(qū)域的DNA捕獲并富集后,進(jìn)行高通...
    鳳凰_0949閱讀 4,628評(píng)論 0 7
  • 張林波 余姚大發(fā)化纖有限公司 【日精進(jìn)打卡第1天】 【知~學(xué)習(xí)】 《六項(xiàng)精進(jìn)》2遍共2遍 給同事讀一遍,給老婆背一...
    36eb5a0f61cd閱讀 210評(píng)論 0 1

友情鏈接更多精彩內(nèi)容