作者:hony
審稿:童蒙
編輯:angelica
引言
轉(zhuǎn)眼間,從事生信工作已數(shù)年有余。在這期間,一直專注于基因組方面。項(xiàng)目經(jīng)驗(yàn)較多,涉及的物種也從微生物擴(kuò)展到動(dòng)植物,但其中不乏有各種奇怪的項(xiàng)目,遇到各樣匪夷所思的問(wèn)題,也難免有不甚理想的結(jié)果。從中既是體會(huì)到了成長(zhǎng)的痛苦,也感受過(guò)更多開(kāi)花結(jié)果的喜悅。
猛然間,從內(nèi)心流露出一絲希冀,想要證明自己在所愛(ài)的路上,曾經(jīng)努力過(guò),也終有所得。隨后我將記錄生信道路上的點(diǎn)滴。給眾多想要做好這方面工作的人一個(gè)“彎道超車”的機(jī)會(huì),希望大家能從中收獲很多。
今天將介紹一下組裝分析的整體框架,后續(xù)會(huì)逐步細(xì)化。
對(duì)于還未做過(guò)基因組組裝的老師,肯定會(huì)有幾個(gè)問(wèn)題要問(wèn):
目前基因組都是怎么做的,我的材料要怎么做。
組裝完成后,怎么判斷基因組版本的好壞。
是不是現(xiàn)在腦瓜子嗡嗡的?淡定,我來(lái)幫你解答心中疑問(wèn)。
問(wèn)題1:目前基因組都是怎么做的,我的材料要怎么做?
-
開(kāi)啟基因組項(xiàng)目之前的準(zhǔn)備工作
正所謂“知知己知彼,百戰(zhàn)不殆”。做項(xiàng)目如同作戰(zhàn)一般,要提前做好功課。第一個(gè)要解決的問(wèn)題就是材料的基因組多大,復(fù)雜度如何?因此,做基因組之前強(qiáng)烈推薦做survey和流式,確定一下基因組大小和復(fù)雜度。
在正式進(jìn)行基因組組裝之前,都會(huì)進(jìn)行survey評(píng)估,以此衡量基因組的大小、復(fù)雜度和雜合度。
那么有很多老師問(wèn),可不可以不做流式呢?答案是不做也行,做了更好。如果基因組不是特別復(fù)雜,survey分析所用的測(cè)序數(shù)據(jù)量足夠,結(jié)果理想、準(zhǔn)確。那恭喜您!而一旦出現(xiàn)問(wèn)題,在有流式結(jié)果的情況下,就可以用來(lái)驗(yàn)證,特別是在survey結(jié)果出現(xiàn)多峰情況,無(wú)法判定主峰之時(shí),流式的結(jié)果顯得尤為重要。
-
該如何選擇測(cè)序方案
截至2020年1月份,目前針對(duì)基因組的組裝可采用多種技術(shù)(如下圖)。
圖1 目前各種測(cè)序技術(shù)對(duì)基因組組裝的貢獻(xiàn)
技術(shù)紛繁復(fù)雜,為了獲得染色體級(jí)別組裝的基因組(基因組Plus版),如下操作。
1.技術(shù)選擇
- 第一步,構(gòu)建contig
目前常用的技術(shù)是使用Pacbio和Nanopore技術(shù)進(jìn)行基因組的contig構(gòu)建。
- 第二步, scaffold的構(gòu)建,可選項(xiàng)
一般采用的技術(shù)都是10X genomics和Bionano技術(shù)。這兩種技術(shù)為可選,究其原因?yàn)?0X和Bionano是一種將contig連接成scaffold的過(guò)程,簡(jiǎn)單理解成將組裝好的contig進(jìn)行排序和定向,中間加入預(yù)計(jì)長(zhǎng)度的N。此外,Bionano可預(yù)測(cè)gap的長(zhǎng)度,同時(shí)兼具對(duì)組裝的contig糾錯(cuò)功能,發(fā)現(xiàn)組裝過(guò)程中的錯(cuò)誤,從而打開(kāi)錯(cuò)誤的位置,以備后續(xù)的正確排序和定向。
另外要提及的是,在基因組組裝方面,10X技術(shù)不僅可以用來(lái)構(gòu)建scaffold,同時(shí)測(cè)序深度足夠的話,可以直接進(jìn)行基因組組裝,功能很強(qiáng)大的喲。
- 第三步,Hi-C技術(shù),必選項(xiàng)
該技術(shù)稱為染色質(zhì)構(gòu)象捕獲技術(shù),準(zhǔn)確度可以媲美早期的遺傳圖譜。一般而言該技術(shù)98%的材料都需要糾錯(cuò),因此一定要注意選擇合適的合作伙伴,該技術(shù)用在組裝上說(shuō),可謂是省時(shí)、省心、省錢。
2.策略選擇
目前是Pacbio或ONT選擇其一,10X或者Bionano可選也可不選,主要目的是糾錯(cuò)和把部分contig以gap的形式進(jìn)行初步連接。Hi-C技術(shù)則為必選項(xiàng),將contig/scaffold連接成染色體級(jí)別。
至此,目前常用組裝技術(shù)已簡(jiǎn)要介紹。那組裝結(jié)果,是“合格品”還是“殘次品”呢?我們接著往下看。
問(wèn)題2:如何評(píng)估組裝結(jié)果的好壞?
一般而言,我們關(guān)注以下幾個(gè)指標(biāo):1. 基因組大??;2.contig N50;3.回帖率和覆蓋度;4.BUSCO評(píng)估;5.單堿基準(zhǔn)確度。
1.基因組大小
基因組大小一般會(huì)跟survey和流式預(yù)估相差不大,但并非一定如此。這兩種技術(shù)只是一種預(yù)測(cè)基因組大小的方法,所以與真實(shí)基因組大小可能會(huì)存在一定的差異。最終組裝的基因組大小還會(huì)受到材料的雜合度和重復(fù)度的影響。雜合過(guò)高,可能把雜合的區(qū)域也一并組裝出,一般組裝結(jié)果會(huì)可能偏大。重復(fù)度則需要考慮到測(cè)序手段,如果測(cè)序的長(zhǎng)度能夠跨過(guò)重復(fù)區(qū)域,組裝出的基因組大小不會(huì)有很大差異,如果跨不過(guò)去,那很大程度上會(huì)組裝的少些,重復(fù)區(qū)域只能組裝出一部分。
2.contig N50
contig N50,是組裝結(jié)果最直觀的體現(xiàn)。以蘋果的基因組文章為例[zhang, et al., 2019],利用Pacbio+Hic的技術(shù),大大提高了基因組的組裝質(zhì)量,其中一個(gè)重要指標(biāo)就是contig N50,比10年發(fā)表在NG上基因組提高了近460倍(contig N50從13k到6.99Mb),享受了技術(shù)帶來(lái)的福利。
N50是一個(gè)值得關(guān)注的指標(biāo)。下表是桃的基因組文章中統(tǒng)計(jì)了部分物種的組裝質(zhì)量,比較了多個(gè)物種的N50的指標(biāo)。
表1 各植物基因組質(zhì)量統(tǒng)計(jì)表[Verde, et al., 2013]
那是不是所有材料都會(huì)達(dá)到如此高水平的組裝效果呢?
就目前技術(shù),針對(duì)不是特別復(fù)雜的基因組,contig N50都可以達(dá)到Mb級(jí)別。這種Mb級(jí)別的contig長(zhǎng)度,針對(duì)基因組組裝后的注釋分析而言,就準(zhǔn)確度和完整度方面足以。因?yàn)閷?duì)于基因組當(dāng)中,這些contig連接不起來(lái)的區(qū)域,一般情況下都是基因組的復(fù)雜區(qū)域,而該區(qū)域包含基因的概率很低,因此對(duì)基因注釋的影響一般不會(huì)很大。
但是,需要注意的是,并非所有物種組裝后的contig N50都會(huì)很高,所以對(duì)這個(gè)值要理性看待。在這幾年的實(shí)踐中,我們遇到過(guò)同樣的技術(shù)、同樣的數(shù)據(jù)量、同樣的算法、不同的材料背景,簡(jiǎn)單的基因組就是比復(fù)雜基因組裝得好。因此基因組的重復(fù)度和雜合度,都會(huì)對(duì)基因組的這個(gè)指標(biāo)造成或大或小的影響。
因此,需要以“盡信值則不如無(wú)值“的理念看到這個(gè)問(wèn)題。當(dāng)出現(xiàn)異常的時(shí)候,積極地去排查,從而才能得到想要的結(jié)果。
3.回帖率和覆蓋度
回帖率指的是將同一材料進(jìn)行二代測(cè)序,將二代數(shù)據(jù)比對(duì)至組裝出的基因組,看有多少數(shù)據(jù)可以比對(duì)回去。一般情況都能高于90%以上(95%屬于平均水平),覆蓋度也會(huì)在90%以上。在這里,我們會(huì)思考這個(gè)數(shù)據(jù)受什么影響呢?
1.基因組中雜合區(qū)域的存在。組裝時(shí)雜合的區(qū)域被去掉了,或者沒(méi)有裝出來(lái),這個(gè)值就會(huì)有所降低。目前都是只裝一套基因組的。因此只要不是特別低,一般情況下說(shuō)明雜合區(qū)域的組裝都沒(méi)有問(wèn)題。
2.二、三代測(cè)序技術(shù)本身的缺陷。一般來(lái)說(shuō),二代數(shù)據(jù)對(duì)基因組的覆蓋度可達(dá)95%以上,那為啥不是100%呢?由于二代測(cè)序技術(shù)本身的缺陷,在建庫(kù)過(guò)程中,經(jīng)過(guò)了PCR過(guò)程,那么PCR的缺點(diǎn)就需要接受。高GC、高重復(fù)區(qū)域不容易被擴(kuò)增出來(lái),那么基因組中的這部分就很大程度上以未覆蓋的區(qū)域存在,所以回帖率不可能達(dá)到100%。
3.技術(shù)的差異。組裝基因組的框架是采用Pacbio技術(shù),拋開(kāi)組裝錯(cuò)誤來(lái)說(shuō),一般都不會(huì)到100%。因?yàn)樵摷夹g(shù)在測(cè)序過(guò)程中不經(jīng)歷PCR,因而不會(huì)像二代測(cè)序一般受到PCR的局限,故而可能會(huì)測(cè)到二代測(cè)不到的區(qū)域。由此回帖率也不會(huì)達(dá)到100%。
4.BUSCO評(píng)估
BUSCO是一個(gè)核心單拷貝基因庫(kù),根據(jù)物種進(jìn)化關(guān)系(界,門,綱等)構(gòu)建各種單拷貝基因的數(shù)據(jù)庫(kù)。該庫(kù)可以用來(lái)評(píng)估基因組的核心基因是否均組裝出。如下圖所示,已發(fā)表物種都在85%以上。
圖2 基因組和基因的BUSCO評(píng)估 [Waterhouse, et al., 2017]
一般情況下,基因組評(píng)估均能達(dá)到90%以上。所以這個(gè)值的含金量就會(huì)降低,但是就當(dāng)前現(xiàn)狀來(lái)說(shuō)并未有其他更理想的可替代的評(píng)估策略。因此,目前大家還都作為組裝后例行評(píng)估而采用。
然而組裝出的基因組效果是層次不齊。可能讀者會(huì)有疑問(wèn),如果我的評(píng)估結(jié)果很低的時(shí)候該怎么辦呢?不要急,我們來(lái)分析一下可能的原因。
物種原因。BUSCO是根據(jù)目前發(fā)表物種依據(jù)序列相似度而整理出的一些核心基因集。若研究材料已知信息較少,那么該分析則會(huì)存在偏差,參考意義較小。
如果出現(xiàn)上述情況,怎么辦呢?可將該物種表達(dá)的基因測(cè)出,比對(duì)到基因組上,看有多少基因序列能夠以高覆蓋度的形式存在。如果95%以上的EST都可以90%的覆蓋度比對(duì)回去,那組裝結(jié)果一定程度上是可信的。
第二種則是組裝結(jié)果不良。如果二代數(shù)據(jù)回帖率評(píng)估不過(guò)關(guān)、比對(duì)率較低,側(cè)面說(shuō)明有很多區(qū)域沒(méi)有組裝出來(lái)而導(dǎo)致組裝效果差。
5.單堿基準(zhǔn)確度
一般這種方法針對(duì)二倍體材料可以采用。將在糾錯(cuò)階段未使用的另一批二代數(shù)據(jù)比對(duì)回基因組,進(jìn)行SNP calling。對(duì)于二倍體而言,某些位點(diǎn)應(yīng)該最多有兩種堿基型,如果鑒定到的變異位點(diǎn)ref的類型沒(méi)有數(shù)據(jù)支持,或者該位點(diǎn)有多種堿基類型,那該位點(diǎn)很大概率上是有問(wèn)題的。
結(jié)語(yǔ)
上述長(zhǎng)篇大論相信大家對(duì)于組裝整體框架有了一個(gè)感官的了解和認(rèn)識(shí),在此恭喜大家,入門了。此時(shí)是否有更多的疑惑溢出,比如 Pacbio和Nanopore如何選擇呢?如何構(gòu)建染色體級(jí)別的染色體呢?別急,欲知后事如何,且看下回分解。
參考:
Verde I, Abbott A G, Scalabrin S, et al. The high-quality draft genome of peach (Prunus persica) identifies unique patterns of genetic diversity, domestication and genome evolution[J]. Nature genetics, 2013, 45(5): 487.
Waterhouse R M, Seppey M, Sim?o F A, et al. BUSCO applications from quality assessments to gene prediction and phylogenomics[J]. Molecular biology and evolution, 2017, 35(3): 543-548.
Zhang L, Hu J, Han X, et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour[J]. Nature communications, 2019, 10(1): 1494.
作者:hony
審稿:童蒙
編輯:angelica