Campos2015 基因組遺傳力

de los Campos, G., Sorensen, D., and Gianola, D. 2015. Genomic Heritability: What Is It? PLOS Genet. 11(5): e1005048. doi:10.1371/journal.pgen.1005048.

摘要

全基因組回歸方法越來越多地用于分析和預測復雜的性狀和疾病。在人類遺傳學中,這些方法通常用于推斷遺傳參數(shù),例如個體之間的遺傳變異的數(shù)量或者可以通過分子標記的回歸來解釋的表型變異的比例。即使數(shù)據(jù)分析通常采用的一些假設與重要的定量遺傳概念不一致,情況也是如此。在本文中,我們發(fā)展的理論,導致高維基因組回歸中出現(xiàn)的參數(shù)的精確定義; 我們專注于所謂的基因組遺傳力:可以通過對一組標記進行線性回歸來解釋(在群體中)的性狀的方差比例。我們提出了一個定義這個參數(shù)是在經(jīng)典的定量遺傳學理論框架,并表明基因組遺傳力和性狀遺傳力參數(shù)是相等的,只有當所有的因果變種是鍵入。此外,我們討論了定義為定量遺傳參數(shù)的基因組方差和基因組遺傳度如何與通常用于推論的統(tǒng)計模型的參數(shù)相關,并且指示使用模擬進一步評估的潛在的推論性問題。當在分析中使用的大部分標記在具有QTL的LE中時,似然函數(shù)可能被錯誤指定。這可能導致相當大的有限樣本偏差,并且可能缺乏可能性(或貝葉斯)估計的一致性。如果樣本中的個體相關性較遠且連鎖不平衡跨越較短的區(qū)域,則可能會遇到這種情況。這種偏見并不否定使用全基因組回歸模型作為預測機器; 然而,我們的研究結(jié)果表明,當使用基于標記的回歸來推斷群體參數(shù),如基因組遺傳力時,需要謹慎。

作者摘要

全基因組回歸(WGR)方法被越來越多地用于推斷方差比例,這可以通過大量標記的線性回歸來解釋,稱為“基因組遺傳性”。然而,WGR中涉及的統(tǒng)計學假設與重要的數(shù)量遺傳學概念有些不一致。我們認為,顯示用于數(shù)據(jù)分析的統(tǒng)計模型的參數(shù)通常與感興趣的定量遺傳參數(shù)具有微小的關系。我們還使用模擬來研究基于可能性估計的偏差程度。我們得出結(jié)論:在某些情況下,估計值可能會有相當大的有限樣本偏差; 因此,在解釋來自WGR模型的參數(shù)估計時,需要謹慎行事。


介紹

全基因組回歸(WGR)方法[ 1 ]越來越多地用于分析和預測復雜性狀,定量或分類。這些方法首先在植物和動物育種預測開發(fā)(例如,[ 2,3 ])。最近,出現(xiàn)了增加的興趣在使用用于推斷方差可以由線性回歸的標記物組上進行說明的比例,或“基因組遺傳力” [WGR方法4 - 6]。預測和推理是兩個不同的問題,一個可能產(chǎn)生好的(例如,無偏和精確的)參數(shù)估計的模型可能具有相對較差的預測性能,反之亦然。WGR方法中的大多數(shù)方法學研究是在動物育種中開發(fā)的,重點在于預測。不幸的是,對WGR模型估計的推斷性質(zhì)知之甚少。例如,目前還不清楚常用的基于似然的(或貝葉斯)方差分量估計量或基因組遺傳度估計總體參數(shù)是否一致[ 7 ]。

在大量的標記信息可用之前,遺傳分析(如遺傳力估計)主要基于混合效應線性模型應用于家庭數(shù)據(jù)[ 8 ]。在所謂的無窮小模型中,親緣關系是用家系來評估的,模型的核心要素是基因型值是由大量基因座上的等位基因的小的加性效應引起的。許多研究已經(jīng)調(diào)查了無窮小模型的擬合的質(zhì)量,以實驗[ 9,10 ]和模擬家庭數(shù)據(jù)[ 11]。這些研究大多認為加法無窮小模型是一個有用的抽象,除了涉及一些大的非加性位點的情況。因此,至少在一些操作層面上,對于家庭信息來說,生成數(shù)據(jù)的模型與用于分析的模型之間的區(qū)別似乎并不重要

對大量基因座的基因型信息的可用性已經(jīng)使得可以評估名義上無關個體[間親緣關系9 - 13 ]。在這種情況下,由于標記和數(shù)量性狀位點(QTL)之間的不完全連鎖不平衡(LD),標記和因果位點的等位基因共享模式可能會有很大的不同[ 6]。因此,數(shù)據(jù)生成過程和用于數(shù)據(jù)分析的模型或工具模型之間的區(qū)別必須明確:在工具模型中,使用基因型信息來代替作為經(jīng)典模型基礎的因果基因型定量遺傳學理論。因此,澄清儀器模型的參數(shù)(例如,基因組或SNP方差)與經(jīng)典的定量遺傳參數(shù)(例如,遺傳方差)之間的聯(lián)系是至關重要的

楊等人。(2010)[ 4 ]提出使用G-BLUP方法[ 2 ],一種特殊類型的WGR,應用于涉及遠親的數(shù)據(jù),用于估計由多元線性回歸所占的方差比例不明原因遺傳方差的比例可以解釋為“缺失遺傳力”,這在概念上可以歸因于標記和QTL之間的不完全的LD。使用WGR方法Yang等人 (2010)發(fā)現(xiàn),人類身高遺傳力的大約一半被普通的SNP所捕獲。其他研究,如[ 6]已經(jīng)使用模擬和實際數(shù)據(jù)證實了楊的結(jié)果。最近,在所有因果變種被假定包括在標記組中的情況下,已經(jīng)使用WGR進行估計,并且已經(jīng)提出了各種建議以獲得與基于系譜的更接近的基因組遺傳性的推斷[ 5 ]。

在迄今已發(fā)布的復雜性狀的基因組分析的文獻[ 4 - 6,14 ],遺傳參數(shù)已經(jīng)基于用于數(shù)據(jù)分析的儀器模型的統(tǒng)計假設定義的。盡管在統(tǒng)計模型和數(shù)量遺傳學理論中,基因型和效應的處理方式有一個關鍵的區(qū)別,但事實并非如此。在遺傳值后者,個體間的差異在QTL [歸因于對象到對象上的差異等位基因含量15 - 17]。因此遺傳變異源于QTL基因型的變異。在這個框架中,在任何一個人口中,等位基因?qū)π誀畹挠绊懀ɡ?,等位基因替換的平均效應)是固定的數(shù)量,例如[ 16 ]第112-113頁。另一方面,在儀器回歸模型中,基因型被視為固定的變異來源于標記效應的不確定性(所謂的“標記效應的方差”)?;蛐图捌湫倪@一關鍵差異具有重要的后果,我們將在本文中進一步探討。

本文的一個重要貢獻是建立一個理論,旨在使用基因組數(shù)據(jù)(標記,序列)作為解釋變量對回歸模型中出現(xiàn)的參數(shù)進行精確定義。我們的方法是在經(jīng)典的數(shù)量遺傳學范式內(nèi)構(gòu)建的。我們討論這些“工具模型參數(shù)”如何與基礎概念QTL模型的“結(jié)構(gòu)參數(shù)”相關。我們還介紹了程式化的案例,闡明了儀器模型參數(shù)的解釋。最后,我們討論潛在的估計問題,并提供一套有限的模擬,其中評估了基于可能性估計的一些統(tǒng)計特性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容