Genetic load: genomic estimates and applications in non-model animals
一篇 2022 年 2 月發(fā)表在 Nature Reviews Genetics 上的綜述。通訊作者為意大利 University of Ferrara 的?Giorgio Bertorelle 和英國?University of East Anglia 的 Cock van Oosterhout。
遺傳變異可能會降低群體的平均適合度。如今,基因組測序技術和計算方法的進步讓我們能夠在無法直接估計適合度的情況下,從序列數(shù)據(jù)估計遺傳負荷。作者們 review 了經(jīng)典的以及當代的關于遺傳負荷的文獻,總結了根據(jù)保守程度和注釋來量化遺傳負荷的方法。將負荷分為兩部分,the realized load (or expressed load) 和 the masked load (or inbreeding load),能夠幫助我們更好地理解群體中的有害突變。
對于一個適應了當前環(huán)境的群體,變異往往是有害的。即使是新的有利變異,對其祖先 variant 的替換也會給群體帶來負擔,這種情況就是 the cost of natural selection。由此導致的個體及群體平均適合度的下降就是遺傳負荷,可以被理解為物種為了未來的演化能力付出的代價。
傳統(tǒng)的遺傳負荷從表型影響的角度出發(fā),被定義為“與最佳基因型相比,適合度降低的比例”,但是這個定義沒有考慮到潛在的對適合度的影響,例如隱性有害突變的影響。本文中的遺傳負荷指的是包括這部分潛在影響的 total load。按照原因和影響,遺傳負荷被分成了許多類,包括 mutational load, drift load, evolution load, inbreeding load, segregation load, migration / hybrid load, recombination load 等等。但是在全基因組測序分析中,這些定義大多缺少量化分析的框架而難以應用。
在二倍體生物中,遺傳負荷可以分為實際負荷和潛在負荷(前面提到過的 the realized load and the masked load,自己翻譯的)。實際負荷對當前 generation 的適合度造成影響,而潛在負荷可能在未來造成不利影響,其實際效果取決于群體的 demography(例如近交、群體縮小或分化)。

負荷的單位是 lethal equivalent,一個 lethal mutant 可以理解為:在群體中所有的某突變的效果加起來等于一個個體的死亡,也就是,當一個突變完全致死時,群體中存在一個該突變則為一個 lethal mutant,而當一個突變有 50% 的可能性致死時,群體中存在兩個該突變則為一個 lethal mutant。
lethal equivalents 的第二種定義是,認為每個突變會以給定的概率降低適合度,這種定義對于近交衰退、保護基因組學中對滅絕概率的評估等分析更加合適。根據(jù)這種定義,攜帶超過一個 lethal equivalent 的實際負荷的個體仍然可以存活。這個定義的前提假設是,(semi-) lethal mutations 在群體中頻率低,因此純合 lethal 是罕見的。如果?(semi-) lethal mutations 在群體中常見的話,適合度也就不再是實際負荷的負指數(shù)了(一個個體表達一個致死突變的話就肯定會死)。
取決于群體的 age,遺傳負荷與有效群體大小有一個非線性關系。存在了很長時間的小群體會有最高的遺傳負荷,因為許多輕微有害突變被固定下來,升高了實際負荷。而小群體中潛在負荷往往很低,因此,小群體中不會表現(xiàn)出明顯的近交衰退。隨著群體的增大,潛在負荷升高,因此在群體減小中容易受到近交衰退的影響。雖然瓶頸效應會清除一些強有害突變而降低遺傳負荷,但是也會將潛在負荷轉化為實際負荷。除此以外,很長的瓶頸期最終會導致有害突變固定、實際負荷持久存在。因此,即使種群數(shù)目恢復了,要替換掉群體中被固定下來的有害突變,還是需要外來遺傳物質的引入。

在基因組研究中,可以通過兩個步驟來估計遺傳負荷:首先預測突變的有害效應,然后將這些突變的有害程度相加,獲得負荷指標。
Predicting deleterious mutations
預測突變影響主要有兩種方法:第一種是通過跨物種比對獲得該位點的保守性來估計;第二種是基于在模式物種中該突變的已知影響來進行估計。還有第三種不那么常見的方法,是通過突變基因的表達量來進行估計。

基于保守程度的分析,使用的物種越多、演化距離越遠則準確度越高(在存在 anchor species 的情況下,也就是說在兩個距離非常遠的物種之間存在一個 species 將它們聯(lián)系起來,幫助更好地鑒定保守元件)。很大規(guī)模的比對不容易做,因為支系間存在 considerable turnover of constrained sites,并且計算量很大。
另一種方法是通過對于突變所在區(qū)域的生化分析或者功能注釋來預測突變的影響。舉例來說,氨基酸的化學性質可以用于估計任一改變對蛋白質功能的影響。此外,編碼區(qū)域的突變可以被劃分為同義突變或非同義突變。這類信息也可以用于估算突變的有害程度。蛋白質結構、實驗中獲得的突變的已知影響、對基因組的更詳細的注釋都可以提供更多的信息。一些衍生突變可能會錯誤地被標記為有害突變,這種錯誤可以通過結合整體 mutational spectrum(The rate of different types of DNA mutations in different sequence contexts)來避免。
基因表達數(shù)據(jù)也能夠用來預測特定變異對適合度的影響?;虮磉_量和蛋白質多態(tài)性之間存在負相關關系,高表達基因往往有高度保守的編碼序列,因此在遺傳負荷估計上,這些高表達基因上的突變應該首先被考慮(對適合度影響大)。不過這種方法需要已知基因表達量,并且需要將數(shù)據(jù)和預測值關聯(lián)起來。而且,基因表達數(shù)據(jù)不能夠應用于單個核苷酸。
Translating deleteriousness scores into genetic load proxies

作者在上表中總結了由突變有害程度計算遺傳負荷的方法。雖然有很多的方法,但是卻沒有一個所有人一致同意的金標準。因此不同研究得出的負荷程度很難比較。
在文章的后兩部分中,作者總結了在模式生物、家畜以及非模式生物中對遺傳負荷的研究,總結了一些研究發(fā)現(xiàn)的規(guī)律,并且展望了未來的研究。作者建議:應該建立一個統(tǒng)一的標準;更多地研究基因型與適合度之間的關系;將古 DNA 數(shù)據(jù)結合進來;在保護生物學中進行實際應用。