點(diǎn)點(diǎn)點(diǎn) | BAM 標(biāo)記重復(fù) duplicates~

寫在前面

前述,咱們已經(jīng)完成了:

  1. 重測(cè)序讀段回帖到基因組上,得到了 SAM 文件
  2. 對(duì) SAM 文件進(jìn)行排序,得到 Position-Sorted 的 BAM 文件

于是接下來,就是 SNP Calling (也就是變異檢測(cè))之前的步驟....即 “Mark Duplicates”。

功能界面

原本寫成兩個(gè)插件,但想想我還是把這兩塊合并,主要是他們之間的代碼基本是一樣的。有區(qū)別的,那么只是調(diào)用的命令有不同。



看一看 Mark Duplicates 的界面



于是,問題解決。下面來個(gè)示例

輸出文件也簡(jiǎn)單


寫在最后

Emmm,時(shí)間差不多了。剩下的功能就不多了:

  1. Call SNP (不含 Indels)
  2. Call SNP (含 Indels)

至于,為什么此處兩塊要分開?因?yàn)?Indels 的檢測(cè)相對(duì)麻煩。一般可能會(huì)使用 GATK 等流程。但現(xiàn)在這個(gè)流程,說實(shí)話,用起來很不容易。參考已公布的評(píng)測(cè)結(jié)果,會(huì)選用一個(gè)「性價(jià)比」最好的策略....
說的太多,整了三個(gè)插件了。也還沒看看到底自己比對(duì)的是啥。用 IGV 看看。



Emmm... 看起來 1M paried-reads 還是太少了。不過就比對(duì)來說,在我的 PC 上,就需要 30min了。
按照 黃瓜 基因組為 230Mb 來計(jì)算,測(cè)序方式是 PE150,于是可以得到,覆蓋 30X 至少需要 23M Reads,配對(duì)起來,那么就大概是 12M PE,于是需要 6 個(gè)小時(shí)才能搞定一個(gè)樣品的比對(duì)。但事實(shí)上,很可能會(huì)測(cè)到比如 50X 甚至 100X。所以在比對(duì)的時(shí)間上,或許會(huì)變成 12h,甚至 24 小時(shí)一個(gè)BSA測(cè)序樣品。Anyway,我計(jì)算的只是 4.0GHz 6 個(gè)線程的情況下。假設(shè)你有個(gè)不錯(cuò)的PC,可以有 18 個(gè)線程 比如,那么你又可能把時(shí)間縮短為 8 個(gè)小時(shí).... 這個(gè)咋說呢,「過夜培養(yǎng)」就好了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 最近處理的幾組數(shù)據(jù)使我感覺到生信軟件的教程一定要看最新的或官方的,因?yàn)楝F(xiàn)在的技術(shù)和方法發(fā)展太快了,軟件更新?lián)Q代也非...
    果蠅飼養(yǎng)員的生信筆記閱讀 25,808評(píng)論 10 32
  • 上次我們整理到bwa比對(duì)后得到bam文件,下一步我們要通過GATK流程從bam文件中call variant。 一...
    商乙農(nóng)林科技閱讀 2,450評(píng)論 0 2
  • 上次我們整理到bwa比對(duì)后得到bam文件,下一步我們要通過GATK流程從bam文件中call variant。 一...
    商乙農(nóng)林科技閱讀 2,213評(píng)論 0 4
  • 一、簡(jiǎn)介 Samtools是一個(gè)用于操作sam和bam格式文件的應(yīng)用程序集合,具有眾多的功能。 它從SAM(序列比...
    Davey1220閱讀 21,887評(píng)論 2 34
  • 00 寫在前面 僅針對(duì)人類WGS或WES數(shù)據(jù),供參考。時(shí)間管理某一點(diǎn):能自動(dòng)化的工作盡量自動(dòng)化,不要時(shí)間用在毫無意...
    fatlady閱讀 13,680評(píng)論 23 54

友情鏈接更多精彩內(nèi)容