文獻
2022
Molecular Plant
Genome architecture and tetrasomic inheritance of autotetraploid potato

研究背景
栽培馬鈴薯是一種世界范圍的主糧作物。
同源四倍體栽培馬鈴薯表現(xiàn)出高度雜合的基因組,并且主要是無性繁殖的,因此育種效率普遍更低。?
自從單倍體馬鈴薯的第一個參考基因組(DM1-3516 R44)與2011年發(fā)布,已經(jīng)陸續(xù)報道了各種野生和栽培二倍體馬鈴薯的參考基因組。然而,解決同源四倍體馬鈴薯基因組中的四個單倍型仍然是一個挑戰(zhàn)。?
同源多倍體基因組從頭組裝的最大障礙是區(qū)分和分離非常相似的單倍型,這些單倍型通常被組裝成高度片段化的序列。

亮點
作者結(jié)合了HiFi數(shù)據(jù)、HiC數(shù)據(jù)和單倍體參考基因組,成功組裝了同源四倍體馬鈴薯四個單倍型。
結(jié)論1?同源四倍體單倍型分型的基因組組裝
作者選擇同源四倍體馬鈴薯品種C88進行測序和基因組組裝,C88是一個高產(chǎn)、抗晚疫病的商品馬鈴薯品種。它是以印度馬鈴薯I-1085為母本,以S.tuberosum組的Andigena為父本雜交而成的。在20世紀(jì)90年代由國際馬鈴薯中心和中國云南師范大學(xué)開發(fā)后,C88已成為中國西南地區(qū)的首選品種,并迅速被鄰近省份和其他東南亞國家采用。
結(jié)論2 C88基因組的初步組裝和分型?

Fig S1
根據(jù)K-mer調(diào)查和流式分析,估計C88基因組大小約為3Gb (Fig S1)。

Fig 1a
利用33×的HiFi數(shù)據(jù),使用hifiasm軟件進行組裝,得到了3.08Gb的基因組草圖(C88.v0.1, Fig 1a)。接下來,我們嘗試在Hi-C數(shù)據(jù)和單倍型參考基因組的幫助下,將unitig 分配到不同的單倍型,這種方法已在栽培苜蓿和甘蔗的同源四倍體基因組組裝中成功應(yīng)用,然而結(jié)果不太理想。

Fig S2
將HiFi讀數(shù)映射到這些unitigs上,然后在C88.v0.1中鑒定出2.61 Gb的單倍型基因組,其中325.68 Mb的diplotigs (2×)和triplotigs (3×)顯示出顯著的雙倍和三倍體讀數(shù)覆蓋率(Fig S2a)。作者之前開發(fā)了一套流程,可以從二倍體馬鈴薯基因組中鑒定單倍型。為了使用四倍體遺傳圖譜對C88進行單倍體分型,作者將1034個S1子代的重測序讀數(shù)比對到C88.v0.1上(Fig S2b),并計算子代中每個單倍型的遺傳劑量(0,1,2,3,4)。通過劑量分?jǐn)?shù)的分組,約2.08 Gb的單倍型構(gòu)建了48組,代表12條染色體的4個單倍型?;趧┝糠?jǐn)?shù),2x,3x區(qū)域被解壓縮為兩個或三個相同的拷貝,代表737.09 Mb的單體肽序列,并根據(jù)它們與分組單體肽的連鎖關(guān)系被分成48組。
結(jié)論3 C88基因組的遺傳相位輔助多倍體圖譜分組

Fig 1b
根據(jù)分組的unitigs, 89.7%的不連續(xù)HiFi reads(未被其他更長reads覆蓋的reads)被分配到48個單倍體(Fig 1b),并且相位信息輸入到hifiasm的多倍體圖譜分組中。
在之前的hifiasm圖譜分組中,使用三倍體信息來改善二倍體基因組中的雜合區(qū)域組裝。在本研究中,作者首次將此應(yīng)用擴展到自四倍體基因組,通過將經(jīng)過預(yù)分相的HiFi reads輸入到hifiasm中。在此次hifiasm運行后,獲得了四組contigs,分別為總大小為954.57 Mb、918.61 Mb、900.16 Mb和894.06 Mb的contigs(以下簡稱為H1、H2、H3和H4)。對于每組,使用Hi-C數(shù)據(jù)進行聚類和排序,生成了12條染色體。
在去除質(zhì)粒和冗余序列后,獲得了單倍型分型的C88參考記憶怒斬(C88.v1),總大小為3.15 Gb,contig N50長度為18.78 Mb,其中有3.03 Gb的序列錨定在48條染色體上,共檢測到44個端粒(Fig 1b)。
結(jié)論4 單倍型分型基因組的評估

Fig S7

Fig S8
C88.v1的單倍型完整性和準(zhǔn)確性通過六個獨立分析進行評估:
(1)k-mer分布表明在C88.v1中解決了那些未成功組裝的的序列,單倍型解析的特性也得到了HiFi reads均勻分布的映射覆蓋的支持(Fig S7)。
(2)為了評估相位準(zhǔn)確性,我們使用ONT UL reads基于Whatshap polyphase構(gòu)建了分型區(qū)塊。在66,370個分型區(qū)塊中,包含3,400,173個SNPs,分型區(qū)塊與四個組裝的單倍型之間的一致性分別為97.86%(H1),98.58%(H2),97.96%(H3)和98.58%(H4),表明我們的相位化組裝與從UL reads生成的本地相位具有較高的一致性。
(3)為了驗證結(jié)構(gòu)的正確性,我們檢測了C88.v1與單倍體馬鈴薯參考基因組DMv6.1之間長度從50 kb到200 kb的結(jié)構(gòu)變異,并手動檢查了SV區(qū)域的UL reads映射。僅使用映射長度>100 kb的UL reads進行分析。在179個具有超過三個UL reads覆蓋的SV中,97.7%的SV由UL reads跨越斷點。
(4)使用Illumina數(shù)據(jù),我們確定最終組裝具有非常高的堿基準(zhǔn)確性(質(zhì)量值QV 46.6)和完整性(99.05%)。
(5)基于BUSCO對組裝進行的分析確定每個單倍型中超過97%的完整基因,并且重復(fù)基因的比例小于3%,表明單倍型的完整性。
(6)scaffolds的遺傳連鎖強度和Hi-C矩陣也支持分型組裝的質(zhì)量(Fig S8)。
總體而言,C88的單倍型組裝相對完整,包含同型純合區(qū)域,其中包括四套單倍體基因組基因,并且在SNP相位和大規(guī)模結(jié)構(gòu)上顯示出較高的準(zhǔn)確性。
基于239,331個PacBio全長轉(zhuǎn)錄本和來自20個組織的162 Gb Illumina RNA測序數(shù)據(jù),在C88基因組中預(yù)測到150,853個蛋白編碼基因和217,651個可變剪接。
對基因注釋的BUSCO評估顯示每個單倍型中93.8%至95.3%的基因是完整的,而在合并集中為99.2%。
結(jié)論5?五馬鈴薯同源四倍體基因組的單倍型間多樣性
結(jié)論5.1 序列差異:SNP、InDels和SV

Fig 2
為了對C88基因組內(nèi)部基因組多樣性進行全基因組評估,我們選擇每個染色體上最長的單倍型來構(gòu)建C88的偽單倍體基因組。
根據(jù)分型的的HiFi reads比對,總共檢測到11,964,627個SNPs和1,056,892個InDels,分布在四個單倍型的12條染色體上,大約占偽單倍體基因組的1.86%(Fig 2a)。主成分分析表明,在2、4、9和11號染色體的單倍型之間存在相對均勻的距離,而1、3、5、6、7、8、10和12號染色體的單倍型則聚集成兩個或三個群組。單倍型之間的局部差異水平也有所變化,在某些區(qū)域中具有顯著減少的變異。
以11號染色體為例,盡管根據(jù)主成分分析四個單倍型分散在不同位置,但chr11_1與chr11_4在17-38 Mb的區(qū)域非常相似,而chr11_2和chr11_3在19-33 Mb的區(qū)域顯示高度序列相似性。此外,chr10_2、chr10_3和chr10_4共享37.2 Mb的單倍型序列,在組裝過程中形成了三倍體的折疊區(qū)域,但它們在染色體10的兩個近端端粒區(qū)域具有7.58個SNP/kb的多樣性水平。
作者還檢測到11,097個具有存在/缺失變異(PAV)的基因和50,360個單倍型之間的結(jié)構(gòu)變異,包括431個大型SVs(>100 kb),影響了902.76 Mb的序列。在7號染色體的一個900 kb的同源區(qū)域上獲得了放大視圖,以展示四個單倍型之間的廣泛差異(Fig 2b)。
結(jié)論5.2 近著絲粒區(qū)域和著絲粒區(qū)域的可變重復(fù)序列
將HiFi reads映射到偽單倍體基因組并在四個單倍型之間進行整合性分析時,一些區(qū)域幾乎沒有被同源單倍型覆蓋。這些區(qū)域的長度范圍從0.8 Mb到37.1 Mb不等。根據(jù)它們在染色體上的位置,推斷它們可能是著絲粒,并將從單倍體馬鈴薯基因組中鑒定出的六個著絲粒重復(fù)序列(St18、St24、St49、St57、St3-58和St3-238)與這些區(qū)域進行了比對。
在24個目標(biāo)單倍型中,有14個單倍型上觀察到了長度可變的重復(fù)序列富集,長度范圍從19 kb到4.5 Mb不等這提示了著絲粒的位置。在染色體1上,St24在chr1_2、chr1_3和chr1_4上分別形成了99 kb、4.6 kb和4.5 Mb的重復(fù)序列富集區(qū),而chr1_1上沒有觀察到重復(fù)序列富集。在染色體5和6上,重復(fù)序列富集只在四個單倍型中的一個單倍型上檢測到。
為了全面了解48個單倍型上的周著絲粒和著絲粒區(qū)域,作者使用StainedGlass對缺乏整合性的區(qū)域進行了重新比對,使用1 kb的窗口,并鑒定了單倍型特異性的、兆堿基大小的重復(fù)序列富集區(qū)。根據(jù)高度重復(fù)重復(fù)序列的富集情況,可以將48個單倍型分為三類,即與同源單倍型共享重復(fù)序列的單倍型、攜帶獨特重復(fù)序列的單倍型以及沒有明顯重復(fù)序列的單倍型。chr1_1具有兩個獨特的重復(fù)序列富集區(qū),占據(jù)了3.69 Mb的區(qū)域,而chr1_4、chr1_2和chr1_3共享兩個重復(fù)序列富集區(qū),長度分別為1.43 Mb、1.61 Mb和1.28 Mb(Fig 2c)。
除了Chr3外,所有染色體上都檢測到了單倍型特異性的重復(fù)序列富集區(qū)。與擬南芥和水稻等基因組中高度相似的著絲粒衛(wèi)星重復(fù)序列不同,同源四倍體馬鈴薯基因組在同源單倍型上展示出明顯不同的周著絲粒和著絲粒特征,表明著絲粒序列的快速進化。
結(jié)論5.3 野生馬鈴薯在C88基因組的漸滲
野生物種的引入被認(rèn)為增加了栽培作物的雜合性。
通過將20份野生二倍體馬鈴薯的HiFi數(shù)據(jù)比對到C88基因組,發(fā)現(xiàn)C88單倍型與這些野生基因組之間存在不同程度的相似性。野生馬鈴薯的reads覆蓋了C88基因組的25.52%,覆蓋深度超過20×,表明可能存在大量的野生品種引入。在單倍型chr1_1、chr2_1、chr4_1、chr4_3、chr4_4、chr5_2、chr7_2和chr9_3上,可能的引入?yún)^(qū)域占據(jù)了超過50%的單倍型。在35個檢測到的類似著絲粒重復(fù)序列區(qū)域中,有30個區(qū)域與可能的引入?yún)^(qū)域重疊,這表明野生馬鈴薯序列可能對C88單倍型的獨特著絲粒起到了貢獻作用。
結(jié)論5.4 等位基因的差異表達

Fig S12
為了揭示四個單倍型上同源基因的表達模式,作者在單倍型間的同源區(qū)塊中鑒定了23,086個四等位基因位點,即每個單倍型擁有一個等位基因,并在20個組織中分析了它們的表達情況。
對于每個組織,根據(jù)四個等位基因的相對表達水平,我們將等位基因的表達分類為平衡表達、顯性表達和抑制表達(Fig S12a)。平均而言,在一個組織中,49.1%的四等位基因位點顯示出四個等位基因之間的差異表達,其中3.4%的位點擁有單個顯性表達的等位基因(Fig S12B)。在特定單倍型上并沒有明顯的偏好表達。
在C88基因組中,我們觀察到一個位點上的等位基因在這20個組織中呈現(xiàn)出變化的表達模式。在23,086個位點上的92,344個等位基因中,61.7%(56,942個)在這20個組織中至少表現(xiàn)出兩種表達類型,顯示了自花四倍體馬鈴薯基因表達的動態(tài)性質(zhì)。
結(jié)論6 同源四倍體馬鈴薯基因組中的四倍體遺傳

Fig 3
在同源四倍體的減數(shù)分裂中,存在許多與二倍體和異源多倍體不同的特征,比如多價染色體的配對和偏好配對,以及雙減數(shù)分裂(DR)。這些特征長期以來一直是四倍體馬鈴薯和其他多倍體作物的研究重點。在本研究中,我們在C88的自交群體中觀察到了這些有價值的事件。
在對1034個S1個體中的9834個基因型化的SNP進行分析,檢測到四倍體馬鈴薯群體中二價配對和多價配對的頻率。在二價配對中未觀察到與隨機配對有偏差,而在四價配對中,在C88自交群體中顯示出50%到70%的頻率,顯著高于外交馬鈴薯群體中所報道的平均19%。這種差異可能是由于親本品系的基因組成分的變異。
根據(jù)多價配置,DR的發(fā)生取決于減數(shù)分裂I期同源染色體的DNA交換,而攜帶相同單倍型的姐妹染色單體在減數(shù)分裂II期被拉向同一極。根據(jù)DR在端粒和著絲粒之間的染色體位置,其理論頻率計算為0至1/6。
為了研究同源四倍體馬鈴薯中DR的分布情況,我們使用低覆蓋度測序數(shù)據(jù)對C88的自交群體進行了基因分型。盡管在自交群體中檢測DR存在局限性,但我們?nèi)匀辉谏婕?034個測序子代中的1021個的12條染色體上觀察到1%至4%的DR頻率(Fig 3)。DR的分布在同源單倍型上有所變異。對于48個單倍型中的32個,DR頻率向染色體的兩個端粒遞增,并且在近著絲粒區(qū)域檢測到降低的DR頻率,這與基于SNP遺傳圖譜的先前研究一致。然而,在其余的16個單倍型中,只有一個或沒有DR頻率峰值在端粒區(qū)域。以Chr7為例,chr7_1、chr7_3和chr7_4在近端端粒區(qū)域顯示出DR頻率峰值,最高頻率分別為2%、1%和1%,而chr7_2在另一個近端端粒區(qū)域顯示出2.5%的頻率峰值。
結(jié)論7 栽培四倍體植物雜種優(yōu)勢起源

Fig 4a-b
多倍體被認(rèn)為與馴化有著密切的關(guān)聯(lián),并通過提供更有利的基因和遺傳多樣性來促進作物的早期馴化,這有利于增強適應(yīng)性。四倍體馬鈴薯源自于地方品系的二倍體間的雜交。為了研究多倍體對現(xiàn)代馬鈴薯品種發(fā)展的影響,我們使用C88基因組中父母單倍型的組合模擬了兩個二倍體配子的雜交。我們對C88的母本I-1085進行了基因組測序,并使用母本特異的純合SNP將C88基因組的48條染色體分為兩組父母單倍型。
和其他許多無性繁殖作物一樣,馬鈴薯攜帶著嚴(yán)重的突變負(fù)擔(dān)。在C88基因組中,預(yù)測到四個單倍型上有57,641個功能性有害突變,影響了15,942個已注釋的基因,將其稱為預(yù)測的有害等位基因(PDAs)。在總共的23,086個四等位基因座中,33.05%的基因座攜帶了一個至三個PDAs,保持了PDAs在雜合狀態(tài)下(Fig 4a)。
與二倍體馬鈴薯單倍型相比,在那里23.0%的二等位基因座攜帶雜合PDAs,四倍體馬鈴薯單倍型通過提供更多的基因副本作為有缺陷等位基因的備份,顯示出更高水平的功能互補。就父母單倍型而言,在744個四等位基因座中,兩個母本等位基因都是PDAs,而父本單倍型提供了未受影響的等位基因(Fig 4B)。相反情況是,在2366個四等位基因座中,有兩個父本PDAs和至少一個未受影響的母本等位基因。因此,在雜交中,配子中的兩個無功能等位基因會在四倍體合子中以雜合狀態(tài)被另一個親本屏蔽。在自發(fā)多倍化中,2N配子上的純合有害突變會以這種方式被掩蓋,從而減少有害突變的積累帶來的危害作用。這可能是存在有利的四倍體栽培品種的基礎(chǔ)。

Fig S16
在C88基因組中,檢測到了1079個父本特有基因和1253個母本特有基因。父母間的雜交賦予四倍體更豐富的遺傳多樣性,為育種中篩選積累的優(yōu)良性狀提供了可能性。
晚疫病是由普通馬鈴薯疫霉引起的最嚴(yán)重的病害,已經(jīng)影響馬鈴薯產(chǎn)量超過兩個世紀(jì)。C88對普通馬鈴薯疫霉在葉片和塊莖上具有高度持久的抗性。使用avr蛋白進行浸潤實驗表明,Avr1和Avr2在C88馬鈴薯葉片上引發(fā)了顯著的超敏反應(yīng)(HR)表型(Fig S16)。

Fig 4c
通過對Solanum demissum的人工合成染色體(BAC)克隆PGEC472P22,作者將R1基因定位到chr5_3上,該克隆攜帶了R1基因(Fig 4c),并使用具有HR表型的全長轉(zhuǎn)錄本將R2基因定位到chr4_3上。R1和R2都來自父本單倍型,表明C88品種的持久抗性主要歸因于其父本的背景。
C88主要作為夏季作物在云南省種植,該地區(qū)位于北緯20°至30°之間,在夏季有更長的日照時間。在這種條件下,C88的母本提供了更好的本地適應(yīng)性,而父本的適應(yīng)性較差。C88在夏季成熟期很晚,生長期為120-150天。對晚熟馬鈴薯基因StCDF1.1的篩選顯示,其中三個等位基因是相同的,而一個等位基因在編碼序列中攜帶了一個3個堿基的缺失,導(dǎo)致一個氨基酸的缺失,位于三個預(yù)測的結(jié)構(gòu)域之外,似乎不太可能影響基因功能(Fig 4c)。因此,來自兩個父本的StCDF1.1的四個等位基因很可能賦予了C88的晚熟表型,在較長的日照條件下確保其適應(yīng)亞熱帶地區(qū)。父本單倍型的功能基因的積累使C88成為一個具有良好適應(yīng)。