【現(xiàn)學(xué)現(xiàn)賣】CHEER中的概念解釋——k-mer

“?概念理解”

CHEER: HierarCHical taxonomic classification for viral mEtagEnomic data via deep leaRning

對這篇文章中概念的理解:

【現(xiàn)學(xué)現(xiàn)賣】CHEER與病毒宏基因組數(shù)據(jù)分析(1)

【現(xiàn)學(xué)現(xiàn)賣】CHEER與病毒宏基因組數(shù)據(jù)分析(2)

k-mer

單獨的k-mer很好理解,就是從一段序列中迭代分割提取長度為k的幾個子序列(一般k為奇數(shù),使用例如SPAdes軟件進(jìn)行基因組組裝時使用多個k值效果較好,而不是使用經(jīng)過預(yù)測的一個最佳的k值組裝)。

理解應(yīng)用才能更好記住它,所以再提一下基因組組裝以及DBG算法(De Bruijn Graph assembly),這是一個適用于短reads測序結(jié)果的組裝算法(還有Overlap-Layout-Consensus-OLC適用于一代、三代的長read測序組裝和String Graph)。

這個基于DBG+k-mer基因組組裝的簡單流程如圖:

(1)原始數(shù)據(jù)糾錯

將read打斷成k-mer,有些測序錯誤引起的錯誤k-mer或低頻k-mer可以利用k-mer頻數(shù)圖譜或者read比對來對k-mer進(jìn)行糾錯(低頻k-mer多為測序錯誤,高頻可能是重復(fù)片段),為構(gòu)建更準(zhǔn)確的DBG圖做準(zhǔn)備。

(2)k-mers構(gòu)建contigs,構(gòu)建DBG圖

將得到的k-mers利用overlap構(gòu)建contigs,然后對contigs創(chuàng)建DBG圖,對圖進(jìn)行簡化,比如移除錯誤低頻k-mer;刪除low coverage link;解開短重復(fù)序列鏈接;合并相似位點等,最終輸出contigs序列。

(3)構(gòu)建Scaffold

雙末端測序中,除了序列本身還有一些距離信息,這些距離信息可以幫助組裝。read1和read2來自同一條序列(中間不一定有overlap),可以根據(jù)paired-end信息將不同的Contigs搭建成Scaffold。

(4)補gap

利用測序的雙末端數(shù)據(jù)之間的配對關(guān)系連接contigs,并利用測序數(shù)據(jù)與已經(jīng)組裝的contig之間的覆蓋關(guān)系對contig之間空隙進(jìn)行補洞,延長contigs。

總結(jié)

這個方法最核心的是De Bruijn圖,這是一種歐拉圖(或者說半歐拉圖,圖中包含一個路徑,可以每邊只有一次就走完所有邊),我們最后拼接基因組就在找歐拉路徑。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容