使用 k-mer 圖評估單倍型分區(qū)
k-mer 比較圖是一類重要的基因組組裝評估工具,它們通過比較測序 reads 中的 k-mer 內(nèi)容與組裝結(jié)果中的 k-mer 內(nèi)容來判斷組裝質(zhì)量。這些圖能夠提供覆蓋度信息,從而幫助區(qū)分真實(shí)的 k-mer 和由測序錯(cuò)誤產(chǎn)生的 k-mer(Mapleson 等,2017)。此外,k-mer 峰值還能指示基因組的倍性,反映單倍型之間的相似性,并幫助確認(rèn)組裝中的拷貝數(shù)判斷是否準(zhǔn)確(Carvalho 等,2016)。
k-mer 頻譜比較圖(圖 2)確認(rèn)了 Regen-SY27x 組裝具有較高的完整性,并且單倍型分區(qū)準(zhǔn)確。在完整組裝圖中(圖 2A),錯(cuò)誤峰,即低頻率的黑色 k-mer,與苜蓿基因組真實(shí)峰之間有清晰分離,這說明測序覆蓋度充足,能夠支持高保真度的基因組組裝。該組裝結(jié)果有效排除了測序錯(cuò)誤,同時(shí)保留了真實(shí)的基因組 k-mer,并且這些 k-mer 以預(yù)期的拷貝數(shù)出現(xiàn)。
值得注意的是,1X,即紅色峰,是最明顯的峰,其中包含的 k-mer 數(shù)量顯著多于共享的 2X、3X 或 4X 峰。這表明苜?;蚪M中有很大一部分區(qū)域具有高度多態(tài)性。盡管苜蓿是同源四倍體來源,但仍有大量獨(dú)特的 k-mer 能夠區(qū)分四個(gè)單倍型。
圖 2。
k-mer 圖,包括假染色體和未定位 scaffold,由 Kmer Analysis Toolkit,也就是 KAT,生成。
A)包含全部四個(gè)單倍型的 phased Regen-SY27x 組裝;
B)在 hifiasm 最終分型參數(shù)確定之前,包含全部四個(gè)單倍型的 phased Regen-SY27x 組裝;
C)各個(gè)單倍型的 k-mer 圖。
單個(gè)單倍型的圖(圖 2C)進(jìn)一步驗(yàn)證了分區(qū)的準(zhǔn)確性,因?yàn)槊總€(gè)組裝分區(qū)都捕獲了預(yù)期約 25% 的獨(dú)特基因組 k-mer。這種分布代表了預(yù)期的單倍型比例,說明研究者成功解析出了四個(gè)同源染色體組。與較早的組裝版本相比(圖 2B),這些結(jié)果表明,hifiasm 中選擇的參數(shù)以及連鎖圖譜的使用,成功減少了單倍型塌縮,并最大化了結(jié)構(gòu)分辨率