“?概念理解”
CHEER: HierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning
對這篇文章中概念的理解:
【現(xiàn)學(xué)現(xiàn)賣】CHEER與病毒宏基因組數(shù)據(jù)分析(1)
【現(xiàn)學(xué)現(xiàn)賣】CHEER與病毒宏基因組數(shù)據(jù)分析(2)
k-mer
單獨的k-mer很好理解,就是從一段序列中迭代分割提取長度為k的幾個子序列(一般k為奇數(shù),使用例如SPAdes軟件進(jìn)行基因組組裝時使用多個k值效果較好,而不是使用經(jīng)過預(yù)測的一個最佳的k值組裝)。
理解應(yīng)用才能更好記住它,所以再提一下基因組組裝以及DBG算法(De Bruijn Graph assembly),這是一個適用于短reads測序結(jié)果的組裝算法(還有Overlap-Layout-Consensus-OLC適用于一代、三代的長read測序組裝和String Graph)。
這個基于DBG+k-mer基因組組裝的簡單流程如圖:
(1)原始數(shù)據(jù)糾錯
將read打斷成k-mer,有些測序錯誤引起的錯誤k-mer或低頻k-mer可以利用k-mer頻數(shù)圖譜或者read比對來對k-mer進(jìn)行糾錯(低頻k-mer多為測序錯誤,高頻可能是重復(fù)片段),為構(gòu)建更準(zhǔn)確的DBG圖做準(zhǔn)備。
(2)k-mers構(gòu)建contigs,構(gòu)建DBG圖
將得到的k-mers利用overlap構(gòu)建contigs,然后對contigs創(chuàng)建DBG圖,對圖進(jìn)行簡化,比如移除錯誤低頻k-mer;刪除low coverage link;解開短重復(fù)序列鏈接;合并相似位點等,最終輸出contigs序列。
(3)構(gòu)建Scaffold
雙末端測序中,除了序列本身還有一些距離信息,這些距離信息可以幫助組裝。read1和read2來自同一條序列(中間不一定有overlap),可以根據(jù)paired-end信息將不同的Contigs搭建成Scaffold。
(4)補gap
利用測序的雙末端數(shù)據(jù)之間的配對關(guān)系連接contigs,并利用測序數(shù)據(jù)與已經(jīng)組裝的contig之間的覆蓋關(guān)系對contig之間空隙進(jìn)行補洞,延長contigs。
總結(jié)
這個方法最核心的是De Bruijn圖,這是一種歐拉圖(或者說半歐拉圖,圖中包含一個路徑,可以每邊只有一次就走完所有邊),我們最后拼接基因組就在找歐拉路徑。