基因組研究發(fā)展進(jìn)程
1)1.0時(shí)代:使用二代測(cè)序,組裝得到的是draft genome, 特點(diǎn)是組裝完整性比較差的非染色體水平的基因組
2)2.0時(shí)代:使用的測(cè)序策略是PB(CLR)/ONT(N50>20k)+ Hic,組裝得到的是high-quality genome, 特點(diǎn)是組裝得到的基因組是染色體水平,ContigN50>1M,但是測(cè)序得到的基因組的準(zhǔn)確度不足
3)3.0時(shí)代:使用的測(cè)序策略是PB(HIFI)/ONT(N50>50K)+ Hic,組裝得到的基因組是high-quality genome,特點(diǎn)是組裝得到的基因組是染色體水平,對(duì)于復(fù)雜基因組來說ContignN50 > 10M,測(cè)序得到的基因組的準(zhǔn)確度較高
4)4.0時(shí)代:使用的測(cè)序策略是PB(HIFI)/ONT(N50>100K)+ Hic,特點(diǎn)是組裝得到的基因組是T2T染色體水平,1 Contig = 1 Chr,測(cè)序得到的基因組的準(zhǔn)確度較高
T2T基因組概念及意義
概念:T是指端粒,是染色體末端的一段特殊結(jié)構(gòu),由DNA重復(fù)序列和特異結(jié)合蛋白所組成的復(fù)合體,對(duì)于染色體的構(gòu)想和穩(wěn)定具有非常重要的作用。T2T基因組通過多種測(cè)序平臺(tái),高深度測(cè)序,組裝得到的gap-free或者是接近gap-free的高質(zhì)量基因組【三代測(cè)序技術(shù)的發(fā)展,特別是高連續(xù)性的ONT ultra-long和高準(zhǔn)確度的Pacbio HiFi測(cè)序的強(qiáng)強(qiáng)聯(lián)合,克服了著絲粒或高重復(fù)區(qū)域的組裝困難問題。(有研究表明,在新細(xì)胞中,細(xì)胞每分裂一次,位于染色體頂端的端粒就會(huì)縮短一次,當(dāng)他不能再縮短的時(shí)候,細(xì)胞就不能再分裂,因此,端粒被研究者們稱為“生命時(shí)鐘”)。植物的著絲粒位于染色體的異染色質(zhì)區(qū)域,該區(qū)域由多種DNA重復(fù)原件構(gòu)成,包括衛(wèi)星DNA序列、單一拷貝DNA序列、反轉(zhuǎn)錄調(diào)控原件、轉(zhuǎn)座子以及端粒重復(fù)序列等。而這些重復(fù)區(qū)域,是三代測(cè)序組裝中非常大的難點(diǎn)。目前動(dòng)植物的研究中,很難真正的做到完全的gap-free,已經(jīng)發(fā)表的文章中,只要有一條染色體能達(dá)到0 gap,就會(huì)稱為T2T。目前研究的物種大多集中在水稻、擬南芥、人等基因組較為成熟的物種中】
意義:T2T克服了著絲?;蚋咧貜?fù)區(qū)域的組裝困難的問題,染色體的連續(xù)性和完整性大大提高,有助于對(duì)基因組中高重復(fù)序列區(qū)域或高重復(fù)結(jié)構(gòu)進(jìn)行深入研究。T2T解析提供了了解新基因、著絲粒區(qū)域的結(jié)構(gòu),全基因組甲基化水平、重復(fù)序列變異、轉(zhuǎn)座子運(yùn)動(dòng)、著絲粒進(jìn)化等問題。
T2T基因組的組裝
T2T基因組組裝的難點(diǎn)
2個(gè)主要的gap區(qū)域:包括異染色質(zhì)基因組(在哺乳動(dòng)物中,大部分的異染色質(zhì)會(huì)形成衛(wèi)星重復(fù)序列,這些重復(fù)序列位于染色體著絲粒區(qū)域)和高度重復(fù)序列區(qū)域(高度重復(fù)序列會(huì)出現(xiàn)在染色體的末端和散布在整個(gè)基因組中的轉(zhuǎn)座子區(qū)域,這個(gè)區(qū)域是一些短reads和較短reads無法跨越的,如果使用短reads組裝的會(huì)引入更多的錯(cuò)誤)
從T2T組裝的難點(diǎn)上就可以發(fā)現(xiàn)要得到一個(gè)T2T基因組的話,我們就需要得到長reads或者是超長reads,來克服高重復(fù)的這個(gè)區(qū)域。目前常用的三代測(cè)序平臺(tái)主要有兩個(gè),分別是ONT測(cè)序(這種測(cè)序策略可以獲得超長序列,目前的ultra-long reads N50 > 100K,甚至是大于150K)和HIFi測(cè)序(它的reads N50的長度雖然不夠出色,但是它的準(zhǔn)確性是非常高的,單reads QV20的準(zhǔn)確性可以達(dá)到99%)
常見的組裝策略
實(shí)例
1、人類基因組完成圖、人類X染色體:使用的組裝策略都是都是HiFi組裝,然后用ONT Ultra-long 補(bǔ)gap
2、人類8號(hào)染色體、擬南芥-1、擬南芥-2:使用的組裝策略是ONT Ultra-long組裝,然后使用HiFi糾錯(cuò)
3、水稻:純HiFi測(cè)序
4、香蕉:純ONT Ultra-long 測(cè)序
策略總結(jié)
1)不同測(cè)序平臺(tái)數(shù)據(jù)進(jìn)行組裝,不同組裝結(jié)果進(jìn)行整合
2)多軟件組轉(zhuǎn)Nextdenovo\Canu\Necat\Hifisam,不同組裝結(jié)果比對(duì)整合
3)原始數(shù)據(jù)糾錯(cuò)后數(shù)據(jù)進(jìn)行比對(duì),不同比對(duì)信息整合
4)著絲粒、非著絲粒區(qū)域單獨(dú)進(jìn)行polish
T2T基因組的評(píng)估標(biāo)準(zhǔn)
1)組裝的連續(xù)性:contigN50與染色體長度一致、gap-free(單條contig即為一條染色體)
2)單堿基的準(zhǔn)確性:SNP位點(diǎn)情況、BAC(大片段基因組)文庫的鑒定
3)組裝的完整性:BUSCO、二代reads比對(duì)率、二代reads覆蓋度
4)著絲粒與端粒的鑒定:序列檢測(cè)、Motif檢測(cè)
T2T基因組的深入研究
新功能基因的鑒定和物種遺傳變異分析(T2T基因組能夠鑒定到更多的新基因和遺傳變異信息)、近著絲粒基因研究(T2T基因組能夠?qū)崿F(xiàn)著絲粒區(qū)域轉(zhuǎn)錄活性基因的探究)、表觀遺傳圖譜研究(ONT測(cè)序的優(yōu)勢(shì),直接能夠獲取堿基修飾信息,對(duì)著絲粒區(qū)域甲基化情況進(jìn)行深入研究)、著絲粒多樣性研究(利用ONT ultra-long測(cè)序優(yōu)勢(shì),點(diǎn)亮基因組黑洞,深入解析物種著絲粒的信息)及片段重復(fù)及變異研究等
構(gòu)建T2T基因組的前期需要
物種盡可能低雜合度、低重復(fù),其中單倍體材料最佳;選擇具有生物學(xué)意義的物種;物種的背景比較清晰(端粒的序列、位置等。當(dāng)然部分的染色體沒有端粒信號(hào),染色體上有內(nèi)部端粒序列,每條染色體上端粒序列的長度不同)
小問題問答
Hi-C數(shù)據(jù)也是二代數(shù)據(jù),為什么不能用來進(jìn)行基因組組裝的糾錯(cuò)?
首先Hi-C樣品在開始測(cè)序前,會(huì)進(jìn)行一系列的處理,例如會(huì)進(jìn)行膠連,而膠連主要是針對(duì)酶切位點(diǎn)附近。舉個(gè)例子來說,加入Hi-C的測(cè)序深度為100x,那在酶切位點(diǎn)附近的測(cè)序深度可能能達(dá)到100x,但是在一些其他區(qū)域(酶切位點(diǎn)稀有的區(qū)域)可能就達(dá)不到100x,這樣的話可能就導(dǎo)致這個(gè)Hi-C實(shí)際的數(shù)據(jù)相對(duì)于基因組來說覆蓋度是不夠的,同時(shí)膠連這個(gè)實(shí)驗(yàn)對(duì)DNA也是有一定的影響,所以Hi-C數(shù)據(jù)在準(zhǔn)確性和覆蓋度方面不足以用來進(jìn)行糾錯(cuò)。Hi-C數(shù)據(jù)只能為我們提供一個(gè)掛載方向性的指導(dǎo)。
用HiFi數(shù)據(jù)組裝得到的基因組為什么會(huì)偏大?
HiFi數(shù)據(jù)組裝偏大的原因是因?yàn)橐话闱闆r下他會(huì)組裝到很多雜合序列,所以一般HiFi組裝完成后,要根據(jù)預(yù)估基因組進(jìn)行去冗余。HiFi的數(shù)據(jù)相對(duì)來說還是有些短,有的可能組裝不到著絲粒區(qū)域,這種情況就需要用到ONT超長來進(jìn)行完整性的補(bǔ)充。張老師的那篇NG(https://www.nature.com/articles/s41588-021-00895-y)的文章里有補(bǔ)gap的新方法