
Mol. Biol. Evol. 37(12):3507–3524 doi:10.1093/molbev/msaa185
一、研究背景和目的?
關(guān)于結(jié)構(gòu)變異還有許多研究不清楚的地方,比如:結(jié)構(gòu)變異SV對表型的影響,SV的普遍性,個體SV事件在群體內(nèi)的頻率。研究的第一步需要鑒定群體內(nèi)的SVs,過去基于長短reads對此進行了大量研究并取得了一定進展。盡管通過提高測序深度,短reads序列也可以用于鑒定SVs,但對某些SV類型的鑒定上,仍存在低估,比如大的INV,因此作者增加了長reads序列和de novo基因組以確定鑒定到的SVs的準確性。?
本文作者使用了水稻和其近緣野生祖先 O. rufipoogn 的樣品,擬通過鑒定 SVs 作為研究馴化的工具。關(guān)于水稻的起源以及馴化基因的研究很多,為此提供了很好的研究背景。關(guān)于水稻 SV 的研究也有一些,但缺少同時比較野生稻和栽培稻的比較研究。
葡萄中比較了野生和栽培群體中的SV頻率,提供了基因組中人工選擇區(qū)域的獨特見解,反映了與無性繁殖相關(guān)的遺傳負荷會增加。但其它物種中的情況尚不清楚。此外,基因的獲得丟失也仍是一個不斷發(fā)展的領(lǐng)域。作者利用發(fā)表的高倍重測序數(shù)據(jù)鑒定了SV,然后比較了野生稻和栽培稻之間的SV群體頻率;調(diào)查了不同TE家族的MEI頻率;估計了和馴化有關(guān)的特征。
二、研究方法和特色
作者充分利用已發(fā)表的數(shù)據(jù),除高倍重測序數(shù)據(jù)外,還使用了已發(fā)表的長reads序列和de novo基因組以確定鑒定到的SVs的可靠性。
基于鑒定到的SV分析了群體內(nèi)的多樣性、頻譜分布、LD decay;馴化過程中的遺傳負荷,群體間的分化水平,并同SNPs數(shù)據(jù)的結(jié)果進行了比較。
利用候選基因策略,評價了基于SV有助于提高尋找馴化基因的效率。分析了基因組中的不同TE家族的群體動態(tài)及造成差異的可能原因。
三、主要結(jié)果和重要發(fā)現(xiàn)
Comparing SVs among Short-Read, Long-Read, and Whole-Genome Data
基于重測序數(shù)據(jù),作者鑒定了 SNP 和 indels,并基于 SNPs?構(gòu)建了系統(tǒng)發(fā)生樹,F(xiàn)ig. 1a所示,aus 和 indica 聚為一支,japonica 和 aromatic 聚為一支,O. nivara 和 O. rufipogon 聚到了一起,而 O. rufipogon 分為兩支,一支主要是東南亞和印度的材料,另一支主要是中國的材料。由于野生稻中結(jié)構(gòu)的存在,作者只用了其中一支野生稻進行后續(xù)的馴化分析。

作者結(jié)合 Delly 和 Lumpy 的 population calls 鑒定了 DEL、DUP、INV、TRA 四種類型的變異,該方法鑒定到的 INS 不太準確,排除 INS 后共計得到了 824,390 個雙等位 SVs。
作者基于多種方法驗證了SV calls的準確性。
1)Fig. 1b 所示,基于 SV 和 SNPs 數(shù)據(jù)得到的群體結(jié)構(gòu)和進化歷史是相似的;
2)作者同 Fuentes et al. (2019) 基于 3K 數(shù)據(jù)得到的 SVs 進行比較,比較了 DEL、DUP、INV,重疊率為 90.14%,有 9.64% 的變異是先前研究未檢測到的。本研究增加了野生稻,多樣性增加也是可以理解的。

3)作者同基于 de novo assemblies 和 SMRT reads 得到的結(jié)果進行了比較,同樣比較可靠性較高的 DEL、DUP、INV 事件。如下表所示,SMRT 和 de novo assemblies 的結(jié)果比較,前者的數(shù)據(jù)集更小,但檢測到的 SV 更多,INV 和 DUP 的差異表明了檢測方法的系統(tǒng)性偏差??偟膩碚f,兩種方法檢測到的 3 種變異重疊度為 57.53%。
然后,作者比較了短 reads 檢測到的結(jié)構(gòu)變異,由于樣本量較大,檢測到的 SVs 更多。作者檢測了數(shù)據(jù)集之間的重疊比例,發(fā)現(xiàn)長 reads 檢測到的 3 種變異中,各有?70.07%、75.24%、43.22% 在短 reads 中被檢測到,總共被檢測到的比例為?65.35%,高于?SMRT 和基因組兩者間的 57.53%,表明短 reads 的 SV calls 的結(jié)果是合理的。?
Population Properties of SVs
作者聚焦于短 read SVs 調(diào)查了群體動態(tài)。為簡單起見,作者將群體范圍縮小到 indica、japonica 以及 O. rufipogon 的一個分支。
首先作者對 SV 的染色體位置進行了表征,利用滑窗分析了每個分類群的 SV 多樣性。從視覺上看,沒有令人信服的模式表明特定區(qū)域更容易發(fā)生特定的 SV 事件。但 SV 和 SNP 多態(tài)性在染色體窗口之間存在輕微但顯著的相關(guān)性(Fig. 2A)。

# 頻譜圖中,橫坐標為衍生等位基因頻率,這里是計數(shù)的形式。每個類群選了 10 個個體,所以頻率達到 20 即為在群體中固定,數(shù)字小即在群體內(nèi)為低頻。通過和中性頻譜比較可以判斷是否受到選擇。同義突變的頻譜 sSFS 可以認為是中性的。
作者計算了每個類群 4 種 SVs 的(10 個數(shù)據(jù)缺失較少的樣本)unfolded SFS。SFSs 揭示了SV 多態(tài)性的 3 個特征:1)不同類群之間存在明顯差異,栽培稻種固定變異的比例更高,U 形的 SFS 與馴化過程中瓶頸造成的遺傳漂變增強和交配系統(tǒng)的改變一致;2)固定 SVs 的比例較固定的 sSNPs 和 nSNPs 低,表明平均來說 SV 變異是有害的,或者 SV 具有更高的突變率以至于很多新突變還沒有頻率提高的機會;3)不同 SV 類型的 SFS 也存在差異,INV 最極端,超過 90% 的 INV 只存在于 3 個或更少的個體內(nèi),表明強烈的選擇或檢測偏差。
相較 sSNPs,MEI 和所有類型的 SVs 都有著較低的群體內(nèi)頻率。因此,SVs 可能有著較低的LD,物理距離上更快的衰減。作者基于 SNPs、SVs、SNPs+SVs 分別計算了基因組上的 LD,發(fā)現(xiàn)不同類群的 LD decays 存在差異,不同標記類型的結(jié)果也不同,LD 衰減最快的為 SNP+SV,結(jié)果可能表明檢測 SVs 對表型的影響具有重要意義。
SVs and Domestication
在其它馴化類群中,SV?burden 增加是否是馴化的結(jié)果?SV 是否和受到正選擇的基因組區(qū)域直接有關(guān)?以及馴化是否改變了基因?這些都是懸而未決的問題。本文作者基于獲得的 SVs 數(shù)據(jù)集對這些問題進行了分析。
SFS 表明 SVs 和 MEIs 可能是有害的,反映了水稻馴化過程中的遺傳負荷。每個個體 cost 的計算方式為 SV+MEI(雜合的+純和的*2),從 Fig. 3A 可以看出栽培稻顯著高于野生稻,這可能主要是交配方式改變造成的隱性 burden 增加造成的,兩個品種隱性 burden 占加性 burden 的 72% 以上,但在野生稻中為 67%。這種模式在除了 DEL 外的變異類型中都存在。

作者分別基于 SNPs 和 SVs 計算了栽培稻和野生稻之間的分化水平,發(fā)現(xiàn)基于 SNPs 的結(jié)果分化水平高于 SVs,可能是 SVs 在群體內(nèi)的頻率較低造成的。
作者比較了基于 SNPs 和 SVs 計算的 Top 1% FST 窗口,只有少量窗口重合,但顯著高于隨機。indica 和 japonica 重合的只有 1 個,包含一個編碼逆轉(zhuǎn)錄轉(zhuǎn)座子蛋白的基因。作者分析了每個品種中 SNP-SV 共享窗口內(nèi)的候選基因,同樣沒有發(fā)現(xiàn)和農(nóng)藝性狀有關(guān)的候選基因。最后單獨分析了 SNP-only 和 SV-only peaks,對結(jié)果進行了 GO 分析。
作者對利用 SV 檢測選擇事件很感興趣,故基于候選基因評價了 SVs 是否能增強其鑒定效果。針對 15 個已知馴化和改良基因,計算發(fā)現(xiàn)有 6 個位于 FST Top 1% 的窗口內(nèi)(3 個只在 SNP 的計算中,3 個只在 SV 的計算中,均有顯著富集在 FST peaks 中),表明 SVs 確實會有助于鑒定馴化基因。

先前研究表明馴化基因可能是粳稻向秈稻中漸滲的,因此會在 2 個品種差異較小的區(qū)域內(nèi)富集。作者同樣進行了計算驗證,發(fā)現(xiàn) 15 個基因都沒有落在 FST trough(the lowest 99% percentile),但 3 個基因在 SNP 或 SV 的 90% 以上。相反,也有幾個基因在兩個品種間的 FST peaks,表明部分基因可能在秈稻粳稻之間存在漸滲,反映了水稻復(fù)雜的進化歷史。
作者利用CLR方法搜索了類群特異的選擇 sweeps。調(diào)查了 SVs 和 SNPs Top 1% 的 20 kb 窗口。在 FST 和 SweeD 中,SVs 的選擇信號主要是 INV 造成的。而且,SVs和SNPs的結(jié)果沒有任何一致性。兩種數(shù)據(jù)在3個類群中共享的窗口數(shù)目分別為2、1、10,只有10是顯著高于隨機,窗口內(nèi)沒有任何候選基因。作者還分析了馴化過程中的基因獲得和丟失,列舉了一些功能基因。
MEIs for Specific TE Families
作者單獨進行了call MEIs并將其分配到了特定家族,以比較不同TE家族和類型的群體動態(tài)。作者分析了不同類型TE的頻譜,估計了適應(yīng)度效應(yīng)分布(DFE)。為探究不同TE家族之間群體動態(tài)的差異,作者比較了不同TE家族的插入時間,結(jié)果似乎不能解釋SINE和Mariner的頻譜。作者推測可能是選擇造成的并進行了驗證,結(jié)果支持該結(jié)論。

四、研究不足和提出的問題
優(yōu)點:
文章選取了一個研究熱點方向并在水稻這一重要的糧食作物中進行了探究,隨著測序技術(shù)的發(fā)展以及相關(guān)研究的發(fā)布,人們越來越關(guān)注基因組中的結(jié)構(gòu)變異和其表型效應(yīng),在馴化和適應(yīng)性中的作用。充分利用已發(fā)表的數(shù)據(jù),文章通篇沒有生產(chǎn)數(shù)據(jù),通過已發(fā)表的大量數(shù)據(jù)為自己的科學(xué)問題提供服務(wù)。驗證了SV有助于尋找馴化基因,包括鑒定到的結(jié)構(gòu)變異數(shù)據(jù)集,可能有助于生產(chǎn)實踐中的應(yīng)用。
缺點:
文章對野生稻的群體結(jié)構(gòu)沒有清晰地認識,japonica和indica兩個亞種可能起源于不同的野生稻類群,但文章并未對此有一個詳細區(qū)分,如果indica并非起源于中國野生稻那一支系,選擇信號的分析可能會有偏差。在SV的分析中,許多只是單純地描述,缺少深入探討現(xiàn)象形成可能的原因。