使用 k-mer 圖評估單倍型分區(qū)

使用 k-mer 圖評估單倍型分區(qū)

k-mer 比較圖是一類重要的基因組組裝評估工具,它們通過比較測序 reads 中的 k-mer 內(nèi)容與組裝結(jié)果中的 k-mer 內(nèi)容來判斷組裝質(zhì)量。這些圖能夠提供覆蓋度信息,從而幫助區(qū)分真實(shí)的 k-mer 和由測序錯(cuò)誤產(chǎn)生的 k-mer(Mapleson 等,2017)。此外,k-mer 峰值還能指示基因組的倍性,反映單倍型之間的相似性,并幫助確認(rèn)組裝中的拷貝數(shù)判斷是否準(zhǔn)確(Carvalho 等,2016)。

k-mer 頻譜比較圖(圖 2)確認(rèn)了 Regen-SY27x 組裝具有較高的完整性,并且單倍型分區(qū)準(zhǔn)確。在完整組裝圖中(圖 2A),錯(cuò)誤峰,即低頻率的黑色 k-mer,與苜蓿基因組真實(shí)峰之間有清晰分離,這說明測序覆蓋度充足,能夠支持高保真度的基因組組裝。該組裝結(jié)果有效排除了測序錯(cuò)誤,同時(shí)保留了真實(shí)的基因組 k-mer,并且這些 k-mer 以預(yù)期的拷貝數(shù)出現(xiàn)。

值得注意的是,1X,即紅色峰,是最明顯的峰,其中包含的 k-mer 數(shù)量顯著多于共享的 2X、3X 或 4X 峰。這表明苜?;蚪M中有很大一部分區(qū)域具有高度多態(tài)性。盡管苜蓿是同源四倍體來源,但仍有大量獨(dú)特的 k-mer 能夠區(qū)分四個(gè)單倍型。

圖 2。
k-mer 圖,包括假染色體和未定位 scaffold,由 Kmer Analysis Toolkit,也就是 KAT,生成。
A)包含全部四個(gè)單倍型的 phased Regen-SY27x 組裝;
B)在 hifiasm 最終分型參數(shù)確定之前,包含全部四個(gè)單倍型的 phased Regen-SY27x 組裝;
C)各個(gè)單倍型的 k-mer 圖。

單個(gè)單倍型的圖(圖 2C)進(jìn)一步驗(yàn)證了分區(qū)的準(zhǔn)確性,因?yàn)槊總€(gè)組裝分區(qū)都捕獲了預(yù)期約 25% 的獨(dú)特基因組 k-mer。這種分布代表了預(yù)期的單倍型比例,說明研究者成功解析出了四個(gè)同源染色體組。與較早的組裝版本相比(圖 2B),這些結(jié)果表明,hifiasm 中選擇的參數(shù)以及連鎖圖譜的使用,成功減少了單倍型塌縮,并最大化了結(jié)構(gòu)分辨率

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容