- Cappa EP, Cantet RJC. Bayesian inference for normal multiple-trait individual-tree models with missing records via full conjugate Gibbs. Can. J. For. Res. 2006;36:1276–85.
在森林遺傳學(xué)中,來自正常多個性狀個體樹模型的(共)方差分量的受限最大似然(REML)估計受到在任何性狀和個體中沒有觀察的影響。遺漏記錄影響遺傳學(xué)參數(shù)或其功能的REML估計的分布形式,并且當(dāng)分析若干性狀時,計算涉及估計方程。 REML估計的替代方法是通過馬爾科夫鏈蒙特卡羅的完全貝葉斯方法。本研究描述了Cantet等人提出的完全共軛Gibbs算法的使用。 (R.J.C.Cottet,A.N.Birchmeier和J.P.Steibel.2004.Genet.Sel.Evol.36:49-64)以估計多個性狀個體樹模型中的(共)方差分量。該算法比常規(guī)數(shù)據(jù)增加更快地參數(shù)的邊際后驗密度的多元正常數(shù)據(jù)與缺失記錄。還給出了用于計算用于在正態(tài)多特征模型中選擇線性參數(shù)的偏離信息標(biāo)準(zhǔn)的表達(dá)式。這些發(fā)展通過來自兩種松屬的不同雜交的數(shù)據(jù)來說明。
介紹
林木的遺傳評價通常使用全或半同胞家系的后代測試的數(shù)據(jù)進(jìn)行。由Borralho(1995)在森林遺傳學(xué)中引入的單樹混合模型適當(dāng)?shù)乜紤]了附加關(guān)系,特別是對于其中(共)方差分量是估計參數(shù)的多特征數(shù)據(jù)。限制最大似然(REML; Patterson和Thomson 1971)經(jīng)常被森林養(yǎng)殖者使用(例如Huber等人1994; Dieters等人1995)來估計那些參數(shù)。從貝葉斯觀點看,REML被視為所有(共)方差分量的聯(lián)合后驗分布的模式,具有非信息先驗密度,一旦固定效應(yīng)被數(shù)據(jù)的翻譯不變性函數(shù)邊緣化(Harville 1974)。然而,如果模型包含幾個參數(shù),并且數(shù)據(jù)中存在的信息量在參數(shù)之間不同,則從聯(lián)合或邊際模式獲得的估計之間可能存在差異(Sorensen和Gianola 2002)。此外,REML依賴漸近理論來獲得估計的精度的度量,因為估計方程必須迭代地求解,以致不可能獲得估計的采樣分布。 REML估計的替代是通過馬爾可夫鏈蒙特卡羅(MCMC)方法的完全貝葉斯方法。
在過去十年中,貝葉斯理論對大多數(shù)科學(xué)領(lǐng)域的統(tǒng)計分析的貢獻(xiàn)已經(jīng)大大增加,因為通過MCMC算法進(jìn)行后驗推理的可行性。這些方法允許對每個個體參數(shù)的邊際推斷,并通過后驗方差或后驗標(biāo)準(zhǔn)誤差產(chǎn)生估計量的精度測量(Sorensen和Gianola 2002)。此外,作為(共)方差分量的函數(shù)的復(fù)雜的,有意義的遺傳參數(shù)(例如遺傳性和遺傳相關(guān)性)的分布作為MCMC抽樣方案的副產(chǎn)物獲得。注意,在具有加性關(guān)系矩陣和幾個加性和環(huán)境協(xié)方差分量的多特征模型中,沒有頻率分布對應(yīng)于后驗分布:對于(共)方差參數(shù)(或它們的函數(shù))沒有小的樣本分布。在D. Gianola和同事的領(lǐng)導(dǎo)之后,動物育種者使用MCMC技術(shù),如1994年以來的Gibbs抽樣來估計(共)方差分量(Sorensen et al。1994; Wang et al。1994)。最近,森林遺傳學(xué)家已經(jīng)熟悉使用MCMC算法的貝葉斯推理(Soria等人1998; Gwaze和Woolliams 2001; Zeng等人2004)。 Soria等人(1998)應(yīng)用Gibbs取樣對260個桉樹桉樹和地方遺傳材料的生長進(jìn)行遺傳分析,使用雙特性單樹模型。 Gwaze和Woolliams(2001)使用吉布斯抽樣來選擇用于定位子代測試的位點的決策過程。最后,Zeng et al。 (2004)使用Gibbs塊采樣器來推導(dǎo)半透膜設(shè)計中的主要基因和多基因效應(yīng)。
通常,森林遺傳學(xué)中遺傳參數(shù)的多重性狀估計受到由于死亡或樹木損壞的遺漏觀察或者數(shù)據(jù)記憶的實際和技術(shù)問題的影響。成本考慮或具有測量某些特征的操作問題導(dǎo)致這些性狀的記錄數(shù)量較少。昂貴的性狀的實例是與木材質(zhì)量有關(guān)的(Apiolaza等人1999)或“分支”(Shepherd等人2002)。導(dǎo)致較少記錄的操作問題的示例是Dungey(2000)的報告,其中高度測量僅在每個地塊的前兩個樹中進(jìn)行。通常用于分析多特征模型的統(tǒng)計方法是“缺失數(shù)據(jù)”理論,只要取樣導(dǎo)致“隨機丟失”過程(Rubin 1976)。在遺傳或二次抽樣數(shù)據(jù)的多特征模型中遺傳力和遺傳相關(guān)性的估計是一個復(fù)雜的統(tǒng)計問題,即使是使用MCMC技術(shù)的貝葉斯方法。因此,Van Tassell和Van Vleck(1996)首先采用的數(shù)據(jù)增強算法趨向于收斂非常慢,因為MCMC鏈強烈地自相關(guān)。這種相關(guān)性的原因是“丟失數(shù)據(jù)”(未觀察數(shù)據(jù)的誤差項)和(共)方差分量的采樣彼此依賴。為了減少這種相關(guān)性的影響,Cantet et al。 (2004)提出了一種用于估計多種性狀正態(tài)模型中的誤差效應(yīng)的協(xié)方差矩陣的MCMC方法:全共軛Gibbs(FCG)算法。這種方法的收斂速度比Van Tassell和Van Vleck(1996)通過減少抽樣缺失誤差和它們的協(xié)方差矩陣之間的相關(guān)性的數(shù)據(jù)推導(dǎo)過程更快。這是通過采樣丟失的模式而不是個別丟失的錯誤來實現(xiàn)的,這將在下一節(jié)中解釋。雖然在個體樹模型中遺傳隨機效應(yīng)被明確定義,但可能存在競爭性分類效應(yīng)和協(xié)變量(固定或隨機),可提供充分的適應(yīng)。因此,在預(yù)測育種值之前,模型選擇過程是必要的。例如,當(dāng)分析來自純種和雜交后代的數(shù)據(jù)時,模型方程可以包括用于平均加性(A),優(yōu)勢(D)和上位(A×A,A×D,D×D) 。這些參數(shù)根據(jù)數(shù)據(jù)估計為協(xié)變量,每個基因型是它們的線性組合。此外,可能有不同的方式來阻止數(shù)據(jù)或不同的環(huán)境協(xié)變量包括在模型中。 Spiegelhalter et al。 (2002)提出了貝葉斯統(tǒng)計模型選擇,被視為Akaike信息標(biāo)準(zhǔn)的對應(yīng)物:偏差信息標(biāo)準(zhǔn)(DIC)。 DIC由總擬合的度量和模型的復(fù)雜性的懲罰組成。本文的目的是雙重的:(1)應(yīng)用由Cantet等人提出的FCG算法。 (2004)從具有缺失記錄的多特征個體樹模型估計(共)方差分量或它們的函數(shù); (2)獲得表達(dá)式以計算多特征個體樹模型中的模型選擇的DIC。通過來自不同十字架的數(shù)據(jù)來說明發(fā)展。 elliottii Engelm。 (E)和加勒比變種hondurensis(Sénécl)Barrett et Golfari(H)。