Weigel, K.A., VanRaden, P.M., Norman, H.D., and Grosu, H. 2017. A 100-Year Review: Methods and impact of genetic selection in dairy cattle—From daughter–dam comparisons to deep learning algorithms. J. Dairy Sci. 100(12): 10234–10250. doi:10.3168/JDS.2017-12954.
Translated by Google & revised by Dong
摘要
20世紀(jì)初期,育種協(xié)會(huì)的家畜血統(tǒng)簿已經(jīng)建立起來,而產(chǎn)奶記錄儀方案還處于起步階段。農(nóng)民想提高他們牛的生產(chǎn)力,但是群體遺傳學(xué)、數(shù)量遺傳學(xué)和動(dòng)物育種的基礎(chǔ)還沒有奠定。早期的動(dòng)物育種人員利用受當(dāng)?shù)丨h(huán)境條件和畜群特定管理措施影響的表現(xiàn)記錄,努力確定遺傳優(yōu)良的家系。母-女比較使用了30多年,雖然遺傳進(jìn)展微乎其微,但對(duì)表現(xiàn)記錄、遺傳理論和統(tǒng)計(jì)方法的關(guān)注在未來幾年得到了回報(bào)。當(dāng)時(shí)(同群)比較方法允許更準(zhǔn)確地考慮環(huán)境因素,當(dāng)這些方法與人工授精和后代測(cè)試相結(jié)合時(shí),遺傳進(jìn)展開始加快。計(jì)算能力的進(jìn)步促進(jìn)了混合線性模型的實(shí)現(xiàn),該模型以最佳的方式使用譜系數(shù)據(jù)和表現(xiàn)數(shù)據(jù),并實(shí)現(xiàn)了精確的選擇決策。?;蚪M的測(cè)序引發(fā)奶牛育種的革命,科學(xué)發(fā)現(xiàn)和遺傳進(jìn)展的步伐得以加快?;谧V系的模型已經(jīng)讓位給全基因組預(yù)測(cè),貝葉斯回歸模型和機(jī)器學(xué)習(xí)算法已經(jīng)在現(xiàn)代動(dòng)物育種者的工具箱中加入了混合線性模型。未來的發(fā)展將包括闡明關(guān)鍵生物途徑中的遺傳遺傳和表觀遺傳修飾的機(jī)制,基因組數(shù)據(jù)將與來自農(nóng)場(chǎng)傳感器的數(shù)據(jù)一起使用,以促進(jìn)現(xiàn)代奶牛場(chǎng)的精確管理。
2017年3月29日收稿。2017年6月11日接收。該綜述是Dairy Science雜志委托為慶祝出版百年(1917-2017)特刊的一部分。 通信作者:kweigel@wisc.edu
關(guān)鍵詞:遺傳選擇,奶牛,基因組選擇,統(tǒng)計(jì)模型
基礎(chǔ)
表現(xiàn)記錄
譜系記錄和表現(xiàn)數(shù)據(jù)是在前基因組時(shí)代開發(fā)有效的遺傳選擇程序的關(guān)鍵基石,如附錄表A1所示。譜系記錄可以追溯到19世紀(jì)末期育種協(xié)會(huì)創(chuàng)建時(shí),在早期乳業(yè)先驅(qū)如W.D.Hoard的鼓勵(lì)下,此后不久開始廣泛收集表現(xiàn)數(shù)據(jù)。 1905年,密歇根州成立了第一個(gè)記錄牛奶重量和分析乳脂樣品的全州協(xié)會(huì),到1908年,美國(guó)農(nóng)業(yè)部(USDA)動(dòng)物工業(yè)局開始組織地方和國(guó)家奶牛檢測(cè)協(xié)會(huì)進(jìn)入全國(guó)奶牛群改良協(xié)會(huì)(DHIA)。1914年這項(xiàng)工作轉(zhuǎn)由聯(lián)邦推廣人員負(fù)責(zé),參與牛奶測(cè)試的奶牛數(shù)迅速增長(zhǎng)(VanRaden和米勒,2008年),如圖1所示。

DHIA按月檢測(cè)是幾十年來的標(biāo)準(zhǔn),但是現(xiàn)在大約三分之二的奶牛場(chǎng)使用省力的上午/或下午測(cè)試計(jì)劃,即在每個(gè)月的交替時(shí)間采取牛奶樣本。未來的戰(zhàn)略重點(diǎn)是對(duì)最新鮮的母?;蜃罡弋a(chǎn)奶牛的母牛進(jìn)行更頻繁的DHIA采樣,可能為處于最高效率和最常見健康疾病風(fēng)險(xiǎn)的奶牛提供更有用的數(shù)據(jù)。如圖2所示,通過射頻識(shí)別(RFID)傳感器和在線取樣系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行電子測(cè)量,取代了手動(dòng)輸入譜系和表現(xiàn)數(shù)據(jù)。
在二十世紀(jì)二十年代和三十年代,當(dāng)?shù)氐墓f(xié)會(huì)很常見,直到20世紀(jì)40年代人工授精的廣泛采用,當(dāng)時(shí)形成了幾十個(gè)地區(qū)人工授精合作社。因?yàn)閷?shí)際上所有對(duì)奶牛感興趣的性狀都是有性別限制的,所以對(duì)公牛自身表型的遺傳評(píng)估是無用的,并且需要根據(jù)其后代的表現(xiàn)評(píng)估公?;騼?yōu)勢(shì)或劣勢(shì)的策略。

譜系數(shù)據(jù)
盡管早在19世紀(jì)末期,奶牛育種協(xié)會(huì)就為每個(gè)奶牛和公牛分配了獨(dú)特的識(shí)別號(hào)碼,但大部分未注冊(cè)的動(dòng)物(“等級(jí)”)不包括在育種協(xié)會(huì)的家畜血統(tǒng)簿中,需要另一種鑒別方法。美國(guó)農(nóng)業(yè)部于1936年推出了具有獨(dú)特編號(hào)的金屬耳標(biāo),而后發(fā)展成9位數(shù)的耳標(biāo)系列(如35ABC1234),在1955年由動(dòng)植物健康檢驗(yàn)局(APHIS)和美國(guó)動(dòng)物育種者協(xié)會(huì)(NAAB)引入,今天仍在廣泛使用。 1998年推出的美國(guó)ID系列具有雙字符品種代碼,三字符國(guó)家代碼和12位數(shù)字識(shí)別號(hào)碼的特點(diǎn)(例如,HOUSA00035ABC1234或HO840012345678910)。這個(gè)系統(tǒng)被設(shè)計(jì)成在全球唯一的,并且包括登記和分級(jí)動(dòng)物,并且允許將用于每個(gè)個(gè)體的多個(gè)識(shí)別碼相互參照到一個(gè)唯一的號(hào)碼。
早期的預(yù)測(cè)育種值的方法
母-女比較
一頭母牛的泌乳表現(xiàn)一直被認(rèn)為是受遺傳影響,而早期選擇的決定僅僅是基于一頭牛的奶或黃油產(chǎn)量。在二十世紀(jì)之交出現(xiàn)了比較女兒與其母親產(chǎn)奶量的想法。為此目的提出了幾個(gè)指標(biāo)(Davidson,1925; Graves,1925; Yapp,1925; Goodale,1927; Gowen,1930; Bonnier,1936; Allen,1944),Edwards(1932)比較了它們的相對(duì)準(zhǔn)確性。在實(shí)踐中,美國(guó)最早已知的母女差異是由1915年左右個(gè)別公牛協(xié)會(huì)計(jì)算出來的,根據(jù)少數(shù)幾個(gè)種牛和若干后代——這是通過選擇改良奶牛的第一次認(rèn)真的嘗試。到1927年,代表超過6000名農(nóng)民的大約250個(gè)合作奶牛協(xié)會(huì)向美國(guó)農(nóng)業(yè)部提供了數(shù)據(jù),并且在接下來的40年中,美國(guó)農(nóng)業(yè)部計(jì)算出了種牛的母-女比較值,并將結(jié)果寄給了它們的所有者。 20世紀(jì)30年代后期人工授精開始可用,才有了優(yōu)良種牛在許多牛群中生產(chǎn)數(shù)百或數(shù)千只后代的機(jī)會(huì)。在各種管理和環(huán)境條件下飼養(yǎng)的大群子代雌牛大大提高了遺傳預(yù)測(cè)的準(zhǔn)確性。在此期間,RA Fisher(1918,1930)和JBS Haldane(1932)等巨擘的工作為群體和數(shù)量遺傳學(xué)奠定了基礎(chǔ),使先驅(qū)Sewall Wright(1932)和Jay Lush(1931,1933)發(fā)展動(dòng)物育種科學(xué)和準(zhǔn)確評(píng)估種牛所需的統(tǒng)計(jì)方法。開發(fā)了基于母-女比較的各種指數(shù),包括Wright(1932)和Lush等人(1941年)的指數(shù) 。
只要表現(xiàn)數(shù)據(jù)可用于母女及其女牛,母-女比較促進(jìn)了用于多個(gè)牛群的公牛的遺傳評(píng)估。如果母女及其女牛被安置在同一個(gè)畜群中,這種方法能夠考慮牛群特定的管理做法和當(dāng)?shù)氐沫h(huán)境條件。母女及其女牛表現(xiàn)之間發(fā)生的管理或環(huán)境條件的變化可以忽略。不考慮種牛與其交配個(gè)體間的關(guān)系,如果這頭公牛被用到其原產(chǎn)地,有時(shí)會(huì)違反這一假設(shè)。母牛表現(xiàn)的變化,相對(duì)于她的實(shí)際遺傳價(jià)值,是造成預(yù)測(cè)誤差的一個(gè)重要來源。隨著時(shí)間的推移遺傳趨勢(shì)被忽略,但當(dāng)時(shí)在大多畜群中遺傳進(jìn)展是微不足道的。種牛的評(píng)估沒有回歸到平均水平是一個(gè)重要的限制,因此僅基于少數(shù)母-女對(duì)評(píng)估的公牛更可能具有極高或極低的遺傳預(yù)測(cè)值。在此期間,制定了泌乳期長(zhǎng)度(305 d),擠奶頻率(2X)和產(chǎn)犢年齡(成年當(dāng)量)的記錄方法以標(biāo)準(zhǔn)化記錄數(shù)據(jù)。產(chǎn)犢季節(jié)也進(jìn)行了調(diào)整,但一般忽略年間環(huán)境條件的差異。
選擇指數(shù)
Hazel和Lush(1942)提出了單個(gè)性狀EBV(估計(jì)育種值)的選擇指數(shù),Lush(1944)使用這種方法來推導(dǎo)出母-女比較中各種信息來源的權(quán)重。使用多元線性回歸預(yù)測(cè)選擇候選者的EBV,其中每個(gè)獨(dú)立變量代表特定類型的親緣關(guān)系,例如母本,父本,母親半同胞,父本半同胞,或子代的個(gè)體或平均表現(xiàn)?;貧w系數(shù)表示指數(shù)權(quán)重,是遺傳關(guān)系和由表型記錄或平均值貢獻(xiàn)的信息量(例如,泌乳次數(shù)或后代數(shù)量)的函數(shù)。來自不同類型親緣關(guān)系的信息量在選擇候選者之間經(jīng)常不同,因此根據(jù)遺傳力和重復(fù)力參數(shù)對(duì)對(duì)平均表現(xiàn)有貢獻(xiàn)的親屬或哺乳動(dòng)物的數(shù)量調(diào)整指數(shù)權(quán)重。
同代(同群)比較
同代比較代表了基因評(píng)估準(zhǔn)確性的巨大飛躍,因?yàn)樗鼈兡軌蚩紤]表型表達(dá)所在的特定管理和環(huán)境條件(Robertson et al,1956)。同代比較的引入要?dú)w功于Robertson和Rendel (1954),亨德森(Henderson)等人(1954)同年正式發(fā)表了同群比較模型。然而,Searle(1964)指出這種方法在出版之前已經(jīng)在新西蘭使用過。經(jīng)受相似的管理和環(huán)境條件下的同代或同群的概念與流行病學(xué)“cohort”的概念非常相似,在此概念中,基于群體特征(例如,年齡,性別或地理區(qū)域)和生活方式特征(例如鍛煉方案或煙草使用)的共性將患者分組。設(shè)計(jì)同代群體的一個(gè)重要考慮因素是牛群環(huán)境條件的確切定義與足夠的同群提供對(duì)同代群體效應(yīng)的準(zhǔn)確估計(jì)的需求之間的平衡。
后代測(cè)試在母-女比較時(shí)代變得普遍。然而,同代比較的引入使得人工授精中心能夠充分獲得將年輕公牛的精液分配給幾十個(gè)或幾百個(gè)具有不同地理位置,環(huán)境條件和管理實(shí)踐的畜群的益處?;谶z傳力和后代數(shù)目,同代比較通過將平均女牛同代偏差(現(xiàn)在稱為女兒產(chǎn)量偏差)回歸到零而得到增強(qiáng),因?yàn)檩^少后代的公牛的平均偏差比具有許多后代的多頭的方差更大。一些同代比較模型還包括通過父本相互作用調(diào)整的群體,以限制單個(gè)群體對(duì)父本EBV的影響。
康奈爾大學(xué)在20世紀(jì)50年代中期(亨德森,1956)實(shí)施了一個(gè)基于同代比較的區(qū)域父系評(píng)估系統(tǒng),記錄根據(jù)每頭母牛的泌乳次數(shù)和重復(fù)性參數(shù)進(jìn)行加權(quán)。然而,當(dāng)結(jié)合女牛同代偏差來計(jì)算父本的EBV時(shí),沒有使用女?;蛲鷤€(gè)數(shù)的信息。美國(guó)農(nóng)業(yè)部于1961年采用了同代比較方法,取代了母-女比較系統(tǒng)。
這個(gè)模型允許包含母本表現(xiàn)記錄未知的奶牛。Herdyear-season同代群體是以5個(gè)月的動(dòng)態(tài)平均值為基礎(chǔ)的,同代平均值是根據(jù)季節(jié)影響而調(diào)整的。就像在康奈爾模型中一樣,父本的影響也回歸到了平均水平,所以如果一個(gè)公牛沒有大量的女牛就不可能排在前列。被淘汰或用于出售奶制品目的的牛的記錄被延長(zhǎng)至305天,而更長(zhǎng)的記錄在305天被截?cái)唷?br>
此時(shí)還進(jìn)行了其他調(diào)整,其中包括將泌乳期短于305d的因素延長(zhǎng)到特定的品種,地區(qū),季節(jié)和胎次,記錄按泌乳時(shí)間加權(quán)。牛的產(chǎn)犢日期與父本總結(jié)啟動(dòng)之間的時(shí)間差確保了來自具有短哺乳期的被淘汰的母牛的記錄不偏向?qū)ζ涓副镜倪z傳評(píng)估。對(duì)于進(jìn)入遺傳評(píng)估系統(tǒng)的數(shù)據(jù)的及時(shí)性來說,這是一個(gè)明顯的限制,至少直到1975年,牛群中的所有奶牛的記錄可用。對(duì)種牛的遺傳價(jià)值的估計(jì)被公布為他們的女兒相對(duì)于典型群體中的同代表現(xiàn)的預(yù)測(cè)差異(PD)。術(shù)語“可重復(fù)性”(后來的“可靠性”)用來表示公牛PD的準(zhǔn)確性,表明了農(nóng)民在購買公牛精液時(shí)應(yīng)該具有的信心水平。這種方法直到1973年才被允許包含更多的數(shù)據(jù),而且傾向于更小的偏差,并為優(yōu)良磁性的排名提供了一個(gè)指標(biāo)。
在這段時(shí)間內(nèi)引入了幾種競(jìng)爭(zhēng)性的評(píng)估方法。大多數(shù)是彼此密切相關(guān)的,以及C. R. Henderson(1952,1963)和Cunningham(1965)的加權(quán)最小二乘法,以及后續(xù)章節(jié)中所描述的最佳線性無偏預(yù)測(cè)(BLUP)模型的簡(jiǎn)化版本(Thompson ,1976)。 Bar-Anan和Sacks(1974)的累積差異方法基本上與同代比較方法相當(dāng),但是對(duì)牛的同代的遺傳水平進(jìn)行了調(diào)整。 “累積”一詞認(rèn)識(shí)到公牛的女牛的表現(xiàn)數(shù)據(jù)隨著時(shí)間的推移而積累,從而提高了預(yù)測(cè)的準(zhǔn)確性,這種方法是Dempfle(1976)提出的修正累積差分方法的基礎(chǔ)。
1968年美國(guó)農(nóng)業(yè)部(USDA)統(tǒng)一了奶牛的遺傳評(píng)估(Plowman和McDaniel,1968),當(dāng)時(shí)奶牛育種協(xié)會(huì)停止生產(chǎn)性狀的排名。 1972年,美國(guó)農(nóng)業(yè)部牛奶改良調(diào)查部門更名為美國(guó)農(nóng)業(yè)部 - 農(nóng)業(yè)部動(dòng)物改良項(xiàng)目實(shí)驗(yàn)室(AIPL) - 該實(shí)驗(yàn)室為今后45年的奶牛遺傳評(píng)估轉(zhuǎn)化研究設(shè)定了全球標(biāo)準(zhǔn)。
改良的同代比較
1974年引入了改進(jìn)的現(xiàn)代比較(MCC)方法(Dickinson等,1976; Norman等,1976)。在這個(gè)模型中,公牛的PD代表了他的系譜價(jià)值的加權(quán)平均值,以及他的女兒與同代的表現(xiàn)偏差。在以前的方法中,當(dāng)產(chǎn)奶女牛的數(shù)據(jù)變得可用時(shí),公牛的系譜信息通常被丟棄。 MCC方法也允許包含父親和母親的父親系譜??紤]到給定群體(即同代的種群)內(nèi)競(jìng)爭(zhēng)性種牛的遺傳價(jià)值,這種方法可以更好地適應(yīng)一段時(shí)間內(nèi)的遺傳趨勢(shì)(Norman等,1972)。 MCC方法的這些特征越來越重要,因?yàn)楝F(xiàn)代選擇工具和先進(jìn)的生殖技術(shù)現(xiàn)在允許一些農(nóng)民比同齡人更快速地獲得遺傳進(jìn)展(McDaniel等,1974)。另外,隨著農(nóng)民“盡其所能地改善他們的畜群”(Norman et al。,1987),積極的配種交配也變得流行起來。 MCC模型包括了來自特定母牛的前5個(gè)泌乳記錄,其提供了關(guān)于動(dòng)物遺傳優(yōu)勢(shì)或終生生產(chǎn)力劣勢(shì)的更準(zhǔn)確信息。同代群體在一個(gè)群體內(nèi)的初產(chǎn)和多產(chǎn)奶牛是不同的。如前所述,基于遺傳力、女牛個(gè)數(shù)和每個(gè)女牛的泌乳情況回歸公牛的評(píng)估,但是回歸是對(duì)它的譜系值,而不是群體平均值。
MCC方法產(chǎn)生的結(jié)果與公畜模型中的BLUP幾乎相同,但計(jì)算要求相當(dāng)?shù)汀?/strong>遺傳基礎(chǔ)的重新設(shè)定是在這個(gè)時(shí)候開始的,所以提醒農(nóng)民提高他們的選育標(biāo)準(zhǔn)。然而,遺傳基礎(chǔ)的定期重置“原諒”不希望的遺傳趨勢(shì),可能作為對(duì)選擇(例如,女性生育力)的相關(guān)反應(yīng)或某些性狀(例如身材)的主觀價(jià)值的偏差的形式出現(xiàn)。 MCC方法被家系育種家和人工授精試驗(yàn)所廣泛接受,每頭泌乳母牛每年可獲得約45千克牛奶的遺傳增益。在此期間的另一個(gè)創(chuàng)新是將牛奶、脂肪和蛋白質(zhì)的定價(jià)數(shù)據(jù)納入其中,因此遺傳價(jià)值的估計(jì)可以表示為相同品種(PD $)的平均父系的財(cái)務(wù)收益或損失。奶牛指數(shù)在中冶時(shí)代被廣泛使用;這些代表了牛的改良同代偏差和她的父本的PD的加權(quán)平均值(以及后來她的母牛指數(shù)),權(quán)重取決于對(duì)每個(gè)組成部分貢獻(xiàn)的信息量。
線性模型
混合線性模型
亨德森(Henderson,1953)主張使用統(tǒng)計(jì)模型來分割遺傳和環(huán)境變異成分,并預(yù)測(cè)種牛的遺傳價(jià)值,這就導(dǎo)致了BLUP方法的發(fā)展。盡管其理論上的吸引力,計(jì)算限制阻止了BLUP的實(shí)現(xiàn),直到1972年康奈爾大學(xué)在公畜模型中實(shí)施BLUP;這種模式后來被修改,以包括父本之間的遺傳關(guān)系。
混合線性模型用矩陣符號(hào)表達(dá)得最簡(jiǎn)潔,即
y = Xb + Zu + e,
其中y是一組動(dòng)物的表型測(cè)量向量;b是已知影響表型的連續(xù)或分類固定效應(yīng)向量,例如在傳統(tǒng)最小二乘分析中會(huì)遇到的產(chǎn)犢或季節(jié)性同代群體的年齡;u是一個(gè)隨機(jī)效應(yīng)向量,比如育種價(jià)值;X和Z分別是將y中的表型觀察映射到b和u中的固定和隨機(jī)效應(yīng)的關(guān)聯(lián)矩陣,e是隨機(jī)殘差效應(yīng)向量,如臨時(shí)環(huán)境條件或測(cè)量誤差。對(duì)應(yīng)于隨機(jī)效應(yīng)u和e的方差分量σ2u和σ2e可以使用各種方法來估計(jì),如最大似然(Harville,1977)。
公畜和外祖父(Maternal Grandsire)模型
如果混合模型方程中的向量u包含公畜的育種值,并且y包含其女牛的泌乳記錄,則上述混合線性模型將被視為一個(gè)“公畜”模型。如果我們指定G = N (0,Iu^2),這個(gè)模型假設(shè)父本是彼此不相關(guān)的,所得到的父系EBV相對(duì)于σ2e與σu2的大小成比例地向總體均值回歸。由于人工授精和胚胎移植的廣泛使用,分別導(dǎo)致大的父本半同胞家系和全同胞小家系,因此假設(shè)父本彼此不相關(guān)是非常不切實(shí)際的。當(dāng)指定G時(shí),對(duì)u元素之間的相關(guān)性進(jìn)行建模的概念是直接的,在該應(yīng)用中,系譜信息被用來推導(dǎo)期望加性遺傳關(guān)系矩陣,其中G = N (0,Au^2)。得到的A矩陣非常大,是u的元素個(gè)數(shù)的數(shù)量級(jí),并且不能用當(dāng)時(shí)可用的計(jì)算資源來求逆。Henderson (1976)開發(fā)了一套直接構(gòu)建A^-1的規(guī)則,沒有建立A,這樣就可以比MCC模型更精確地建模各家系之間的關(guān)系,以及公畜和母牛之間的關(guān)系或者公畜和外祖父之間的關(guān)系(Henderson,1975)。后來,這種方法被擴(kuò)展,以允許在存在近交的情況下有效地構(gòu)建A^-1(Tier,1990)。
在1972年在康奈爾大學(xué)進(jìn)行的東北AI公畜比較的公畜模型中,向量b包括公畜的產(chǎn)犢年份和遺傳群的固定效應(yīng),其中后者基于公牛的出生年和它所在的AI組織。這個(gè)想法是,一個(gè)給定的AI中心在某一年購買的所有年輕的公牛都具有相似的遺傳價(jià)值,這有助于假設(shè)u中的公畜代表來自相同分布的獨(dú)立(不相關(guān))樣本。只有AI女兒的第一次泌乳記錄被使用,盡管如果有額外的記錄來自同一群體,這個(gè)限制后來被放寬(Ufford等人,1979)。假定了父母本之間隨機(jī)交配,母牛之間的母本關(guān)系被忽略了。
為了解決這樣天真的假設(shè),即公牛隨機(jī)同母牛交配,Quaas等人(1979)提出了一個(gè)外祖父模型。這個(gè)模型包含了一個(gè)額外的隨機(jī)效應(yīng),它代表了外祖父的加性遺傳價(jià)值,以及一個(gè)加性的固定效應(yīng),代表了外祖父的遺傳基因組。雖然這是解決配對(duì)交配積極的一步,但它仍然假定每只公牛的每個(gè)配偶都代表該外祖父的所有女兒的隨機(jī)樣本。母本之間的母本關(guān)系被忽略,模型沒有為外祖父未知的情況增加價(jià)值。Norman et al. (1987)對(duì)牛奶產(chǎn)量的適宜交配進(jìn)行了全面的考察,表明平均遺傳水平較高的牛群一直使用遺傳上優(yōu)越的公牛。然而,主要關(guān)注的是由于內(nèi)部匹配交配造成的偏差,這在當(dāng)時(shí)并不常見(Norman等,1987),在國(guó)家公畜評(píng)估系統(tǒng)中很少有AI公牛受到負(fù)面影響。
動(dòng)物模型
公畜或外祖父模型無法充分考慮,在一個(gè)給定的群體中,有對(duì)母牛而言昂貴精液的公畜和具有最高主觀價(jià)值的小母牛的非隨機(jī)交配是眾所周知的。此外,希望出售優(yōu)良種群的農(nóng)民不再滿足于關(guān)注公畜和處理奶牛作為副產(chǎn)品的遺傳評(píng)估系統(tǒng)。 1989年,AIPL的科學(xué)家們引入了“動(dòng)物模型”(Wiggans and VanRaden,1989),該模型利用了母牛與其父母祖先之間所有已知的關(guān)系。在這個(gè)模型中,動(dòng)物的加性遺傳效應(yīng)代表了無限多的等位基因,具有非常小的效應(yīng) - 所謂的無窮小遺傳模型。
一旦實(shí)施,利用康奈爾大學(xué)的數(shù)據(jù)算法的迭代和超級(jí)計(jì)算機(jī),動(dòng)物模型成為奶牛遺傳評(píng)估的全球標(biāo)準(zhǔn)。統(tǒng)計(jì)方法早在近三十年之前推導(dǎo)出,可以精確地說明交配個(gè)體的遺傳價(jià)值,為同時(shí)評(píng)估雄性和雌性提供了一個(gè)一致的框架。單個(gè)動(dòng)物的育種價(jià)值表示為其父本的一半加性遺傳價(jià)值,其母本的加性遺傳價(jià)值的一半和孟德爾抽樣的總和,孟德爾抽樣表示其與其全同胞平均加性遺傳價(jià)值的偏差,偏差是由于對(duì)配子中的allels進(jìn)行隨機(jī)取樣造成的。所有已知的關(guān)系都在A矩陣中考慮,所以一個(gè)動(dòng)物的表現(xiàn)對(duì)所有已知的父系和母系親屬的EBV有貢獻(xiàn),其貢獻(xiàn)程度取決于關(guān)系的接近度。用戶通常提供至少4代或5代的譜系數(shù)據(jù),并且譜系很少追溯到20世紀(jì)70年代以前,當(dāng)時(shí)的系譜記錄被計(jì)算機(jī)化。當(dāng)譜系數(shù)據(jù)缺失時(shí),可以使用未知(幻影)親本組(Westell等,1988)來解釋遺漏祖先遺傳價(jià)值的差異。
在美國(guó)農(nóng)業(yè)部的動(dòng)物模型中,管理組根據(jù)平價(jià)(第一vs較晚)、注冊(cè)狀態(tài)(注冊(cè)與等級(jí))以及畜群年內(nèi)的雙月時(shí)間塊來定義。與以前的系統(tǒng)一樣,調(diào)整用于說明年齡,擠奶頻率和泌乳時(shí)間,這些因素是特定的品種和地理區(qū)域。自1975年以來,美國(guó)一直在使用記錄;通過減少數(shù)據(jù)收集和育種值預(yù)測(cè)之間的時(shí)間差(Powell等,1975),遺傳進(jìn)展提高了10%。一旦母牛完成每月2或3次DHI檢測(cè),不完整的泌乳記錄預(yù)計(jì)為305天,以及時(shí)產(chǎn)生遺傳預(yù)測(cè)并能夠?qū)δ概<捌涓副咀龀隹焖龠x擇決策。數(shù)據(jù)收集等級(jí)(DCR)是由美國(guó)農(nóng)業(yè)部于1998年引入的;這些數(shù)據(jù)是基于試驗(yàn)日記錄的數(shù)量和間隔,相對(duì)于標(biāo)準(zhǔn)的每月監(jiān)督記錄每天所有的記錄,得到100分。DCR系統(tǒng)允許根據(jù)遺傳評(píng)估的期望值加權(quán)記錄,他們可以作為指導(dǎo)來償還提供高質(zhì)量數(shù)據(jù)的農(nóng)民。
由動(dòng)物模型產(chǎn)生的EBV的精確度可以從混合模型系數(shù)矩陣的逆元素中計(jì)算出來,但是這在計(jì)算上是不可行的,因此使用了近似值(Harris和Johnson,1998)。一個(gè)實(shí)際的方法是將有助于給定動(dòng)物遺傳預(yù)測(cè)的女兒當(dāng)量數(shù)相加(VanRaden和Wiggans,1991),其中來自動(dòng)物后代、自己的表型記錄和祖先(注意同胞和表堂親通過父母進(jìn)行貢獻(xiàn))的信息量要計(jì)數(shù),當(dāng)計(jì)算可靠性值時(shí)。
測(cè)試日(Test-Day)模型
1993年,康奈爾大學(xué)獲得了美國(guó)“測(cè)試日模型”的專利,在該模型中,使用牛群每月測(cè)試中的每日牛奶重量來評(píng)估動(dòng)物相對(duì)于其牧童的表現(xiàn),而不是標(biāo)準(zhǔn)化的305 -d泌乳收益。該模型被引入到幾個(gè)國(guó)家(例如加拿大,德國(guó))的常規(guī)遺傳評(píng)估中,其中遺傳評(píng)估中心獲得許可或成功挑戰(zhàn)了專利。但是,由于這個(gè)專利,美國(guó)的常規(guī)遺傳評(píng)估沒有實(shí)施測(cè)試日模型??的螤柕膶@怯袪?zhēng)議的,因?yàn)樵S多組織(包括美國(guó)農(nóng)業(yè)部)已經(jīng)提供了幾十年的信息,說明在給定的測(cè)試日期,一頭牛相對(duì)于她的牧羊犬的表現(xiàn),澳大利亞在1984年正式實(shí)施了一個(gè)測(cè)試日遺傳評(píng)估模型。然而,以前沒有人考慮過這個(gè)相對(duì)廣為人知的統(tǒng)計(jì)過程的專利(Rothschild and Newman,2002)。測(cè)試日模型的一個(gè)有趣的特征是它們能夠產(chǎn)生泌乳持久性的遺傳評(píng)估;例如,280天的預(yù)期產(chǎn)奶量與產(chǎn)后60天的產(chǎn)奶量的比率。具有較大泌乳持久性的動(dòng)物可能更有可能在整個(gè)泌乳期保持健康,并且可能能夠以較便宜的口糧來滿足其營(yíng)養(yǎng)需求,因?yàn)樗鼈儾唤?jīng)歷DMI的極端情況或其較不持久的同時(shí)代的負(fù)能量平衡。
隨機(jī)回歸模型和協(xié)方差函數(shù)
通常使用隨機(jī)回歸模型(Henderson,1982;Ali和Schaeffer,1987;Jamrozik等,1997)分析隨時(shí)間收集的數(shù)據(jù),如泌乳牛的試驗(yàn)日乳重或生長(zhǎng)小母牛的周期性體重)。 Legendre多項(xiàng)式或樣條等函數(shù)可以用來描述泌乳期遺傳,永久環(huán)境和臨時(shí)環(huán)境影響的軌跡。已經(jīng)提出了許多線性和非線性函數(shù)來建模這些效應(yīng)。例如,Ali和Schaeffer(1987)的模型包括一個(gè)隨機(jī)的牧群日期當(dāng)代群體效應(yīng),以及與母牛哺乳期間的4種功能相對(duì)應(yīng)的固定(總體平均)和隨機(jī)(加性和永久環(huán)境)回歸系數(shù)記錄牛奶重量。在該研究中,假設(shè)整個(gè)泌乳期的剩余方差是固定的,但一般而言,隨機(jī)回歸模型可以提供在泌乳期間的任何時(shí)間點(diǎn)的遺傳,永久環(huán)境和殘差(以及遺傳性和可重復(fù)性)的估計(jì)。選擇候選者的EBV可以在泌乳期間的不同時(shí)間點(diǎn)計(jì)算,并且隨機(jī)回歸模型在適應(yīng)農(nóng)場(chǎng)之間牛奶記錄頻率的變化方面提供了更大的靈活性。
被稱為協(xié)方差函數(shù)(Kirkpatrick et al。,1990)的類似方法可用于分析縱向數(shù)據(jù),并解釋遺傳因素和環(huán)境因素隨時(shí)間的相互關(guān)系。這些模型可能在計(jì)算上要求很高,并且必須確保適當(dāng)?shù)亟<有赃z傳,永久環(huán)境和臨時(shí)環(huán)境效應(yīng)的軌跡。使用具有4或5個(gè)參數(shù)的復(fù)雜函數(shù)精確地模擬遺傳,永久環(huán)境和臨時(shí)環(huán)境效應(yīng)的軌跡的目標(biāo)必須與參數(shù)估計(jì)在應(yīng)用于每月DHIA記錄時(shí)具有大標(biāo)準(zhǔn)誤差的現(xiàn)實(shí)相平衡,每頭母牛每泌乳10個(gè)數(shù)據(jù)點(diǎn)。
隨機(jī)回歸模型和協(xié)方差函數(shù)可以提供關(guān)于泌乳期間生物過程的軌跡(例如,乳脂合成,身體組織沉積)的洞察。另外,這些模型可以提供關(guān)于選擇隨時(shí)間表達(dá)的性狀的相關(guān)響應(yīng)的信息,例如選擇在泌乳早期的最高泌乳量對(duì)泌乳末期的奶組成的影響。隨機(jī)回歸模型或協(xié)方差函數(shù)的結(jié)果也可以用來促進(jìn)有效的數(shù)據(jù)收集協(xié)議的開發(fā),以最大化在測(cè)量表型中投入的每美元的遺傳進(jìn)展。
多性狀模型
Harvey和Lush(1952)介紹了第一個(gè)選擇指數(shù),將牛的生產(chǎn)和構(gòu)象性狀結(jié)合起來,繼Hazel和Lush(1942)和Hazel(1943)的研究后,他們將動(dòng)物的基因型定義為線性組合構(gòu)成總體育種目標(biāo)的性狀的加性遺傳價(jià)值和經(jīng)濟(jì)價(jià)值。總基因型或育種目標(biāo)中性狀的數(shù)量和定義可能不同于選擇指數(shù)中性狀的數(shù)量和定義,特別是如果某些性狀測(cè)量困難或昂貴(例如飼料效率),或者如果選擇依賴于相關(guān)表型更容易得到的性狀。
估計(jì)育種價(jià)值的大多數(shù)模型可以擴(kuò)展到納入多性狀(Henderson,1976)。性狀之間的遺傳相關(guān)性表示一個(gè)性狀的遺傳優(yōu)勢(shì)傾向于遺傳優(yōu)勢(shì)或劣勢(shì)的另一個(gè)性狀的育種目標(biāo)的程度。這種相關(guān)性可能是由于多效性(一個(gè)影響幾種性狀的基因),或者它們可以通過選擇誘導(dǎo)。永久的環(huán)境相關(guān)性測(cè)量動(dòng)物一生中某些時(shí)刻出現(xiàn)的非遺傳因素可能影響隨后幾個(gè)月或幾年中測(cè)量的多重表型的程度,而臨時(shí)環(huán)境(殘留)相關(guān)性則確認(rèn)了當(dāng)前管理實(shí)踐,環(huán)境條件或記錄的程度錯(cuò)誤會(huì)影響多個(gè)特征。
奶牛中有利的遺傳相關(guān)性的實(shí)例包括具有長(zhǎng)期的奶產(chǎn)量或具有女性生育力的身體狀況評(píng)分,而不利的遺傳相關(guān)性的例子包括具有女性生育力的乳產(chǎn)量或具有乳腺炎的產(chǎn)奶量。在人群中存在足夠的遺傳變異來尋找特定的個(gè)體或家族,這些個(gè)體或家族優(yōu)于與負(fù)相關(guān)的特征,例如高產(chǎn)奶量和良好的女性生育能力。多性狀模型通過將正性或負(fù)性相關(guān)性狀的額外表型納入分析來提高遺傳預(yù)測(cè)的準(zhǔn)確性。此外,多性狀模型有助于緩解選擇偏倚,如果獲得歷史選擇決策的特征的表型數(shù)據(jù)可用(Pollak et al。,1984)。然而,多性狀模型的主要優(yōu)點(diǎn)是能夠評(píng)估育種目標(biāo)中性狀之間的相互關(guān)系;這個(gè)信息對(duì)于預(yù)測(cè)由于對(duì)各種性狀的EBV選擇而發(fā)生的期望和不期望的相關(guān)響應(yīng)是關(guān)鍵的。
基因環(huán)境互作
一般來說,基因環(huán)境互作與溫帶環(huán)境中乳品生產(chǎn)系統(tǒng)中經(jīng)濟(jì)重要性狀的相互作用很小,至少與植物育種者在將光系或品種與光周期,溫度,濕度和土壤條件相匹配時(shí)所考慮的相互作用相比較。溫帶和熱帶環(huán)境之間存在重要的相互作用,因此巴西或泰國(guó)等國(guó)家的農(nóng)民往往避免使用普通歐洲品種的純種牛,而更喜歡適應(yīng)當(dāng)?shù)販囟葷穸葪l件的品種遺傳率為12.5%至37.5% ,蜱傳疾病和傳染病。
多性狀模型經(jīng)常用來評(píng)估GXE的相互作用。例如,可以考慮在具有TMR的密閉畜群中生產(chǎn)牛奶,以牧場(chǎng)為基礎(chǔ)的牧群中的奶牛生產(chǎn)作為獨(dú)立但相關(guān)的特征(Weigel等人,1999)。兩個(gè)生產(chǎn)系統(tǒng)中的相同動(dòng)物的表型(作為植物育種者將通過在不同的領(lǐng)域中種植相同的品種來做)是不必要的,因?yàn)椴煌到y(tǒng)中的奶牛之間的遺傳關(guān)系允許將環(huán)境之間的表型協(xié)同性分為其遺傳和環(huán)境組分。
反應(yīng)規(guī)范模型在概念上與協(xié)方差函數(shù)相似,可以描述跨越某個(gè)梯度的遺傳或環(huán)境影響的軌跡,通常是跨越總體管理水平或特定環(huán)境條件的梯度(Strandberg et al。,2009)。 Ravagnolo等人使用了一種概念上類似的方法。 (2000)使用當(dāng)?shù)貧庀笳镜臏囟葷穸戎笖?shù)(THI)數(shù)據(jù)模擬熱應(yīng)激對(duì)產(chǎn)奶量和肥力的影響。假設(shè)每只動(dòng)物對(duì)熱應(yīng)激的發(fā)生具有特定的截距 - 在特定的母牛中觀察到牛產(chǎn)量或生育力下降的THI。此外,假定每只動(dòng)物具有特定的斜率,該斜率表示在該動(dòng)物的發(fā)病點(diǎn)之后,每增加一個(gè)THI的產(chǎn)奶量或生育力的下降速率。澳大利亞也進(jìn)行了類似的分析,以量化個(gè)體動(dòng)物或陛下家系應(yīng)對(duì)氣候變化的能力(Garner等,2016)。實(shí)施熱應(yīng)激,氣候適應(yīng)或其他反應(yīng)標(biāo)準(zhǔn)模式的挑戰(zhàn)是結(jié)果的呈現(xiàn)。對(duì)于每個(gè)低,中或高THI環(huán)境中的每個(gè)特征,父母EBV由于信息過載而不明智,但是如果EBV是根據(jù)最終用戶的當(dāng)?shù)丨h(huán)境和生產(chǎn)條件定制的,則電子分布的結(jié)果可能是簡(jiǎn)單的。根據(jù)地方環(huán)境和畜群管理?xiàng)l件定制EBV或選擇指數(shù)權(quán)重可以提供超越G precise精確建模的額外收益。例如,這將減少特定地區(qū)或國(guó)家的所有農(nóng)民選擇同一個(gè)種公的趨勢(shì),從而解決控制近親交配和保持遺傳多樣性的挑戰(zhàn)。
國(guó)際比較
Holstein-Friesian系的比較
70年代聯(lián)合國(guó)糧食及農(nóng)業(yè)組織(FAO)進(jìn)行的大規(guī)模牛只育種試驗(yàn)涉及將70個(gè)國(guó)有農(nóng)場(chǎng)的30,000只波蘭黑白牛配種給國(guó)際公牛。在10個(gè)國(guó)家,約有80,000劑精液來自年輕(未經(jīng)證實(shí)的)荷斯坦奶牛AI公牛,盡管很難確保這些公牛代表該國(guó)荷斯坦種群的隨機(jī)樣本。這項(xiàng)研究引起了對(duì)乳制品精液的國(guó)際貿(mào)易,特別是北美荷斯坦公牛的精液出口到歐洲和其他大陸的極大興趣。
轉(zhuǎn)換方程
早期遺傳學(xué)比較奶牛的不同來源,國(guó)家使用基于回歸的“轉(zhuǎn)換方程”。在多個(gè)國(guó)家,通常是原籍國(guó)和一個(gè)或多個(gè)進(jìn)口國(guó),擠牛奶的公牛的EBV被用來制定轉(zhuǎn)換方程?;貧w模型包括截距(平均差)和斜率系數(shù)(尺度差),但由于截距和斜率系數(shù)的標(biāo)準(zhǔn)誤差較大,轉(zhuǎn)換后EBV的準(zhǔn)確性一般較差,除非有大量的公牛在兩國(guó)擠奶女兒。
多性狀跨國(guó)評(píng)估
1995年,國(guó)際公牛評(píng)估服務(wù)(Interbull;瑞典烏普薩拉)引入了多重國(guó)家評(píng)估(MACE)方法作為轉(zhuǎn)換方程的替代(Schaeffer,1994)。這種線性模型方法允許Interbull中心同時(shí)為每個(gè)參與國(guó)家的每頭公牛生成EBV。輸入數(shù)據(jù)是每個(gè)國(guó)家的女兒產(chǎn)量偏差或EBV(去除祖先影響),其中每個(gè)國(guó)家都有牛奶記錄的女兒,這些數(shù)據(jù)由每個(gè)國(guó)家的后代數(shù)量加權(quán)。目前有二十多個(gè)國(guó)家參加了Interbull公牛評(píng)估,服務(wù)包括每個(gè)主要奶牛品種的產(chǎn)量,種類,生育力,產(chǎn)犢,壽命,健康和可行性特征。北美和歐洲國(guó)家牛奶產(chǎn)量的估計(jì)遺傳相關(guān)性往往很高,在0.85至0.95的范圍內(nèi),而澳大利亞,新西蘭和其他放牧型生產(chǎn)系統(tǒng)的國(guó)家則可能在0.75或更低。由于性狀定義的差異,構(gòu)象和健身性狀的遺傳相關(guān)性差異很大。由于缺乏熱帶或亞熱帶國(guó)家的Interbull分析,熱應(yīng)力或寄生蟲抗性等因素的影響在很大程度上是未知的。
成員國(guó)已經(jīng)向Interbull免費(fèi)提供了他們的全國(guó)公牛EBV和譜系文件超過20年,Interbull的工作人員使用MACE方法進(jìn)行了基于譜系的薈萃分析。對(duì)基因組測(cè)試的年輕公牛的預(yù)測(cè)可以用基因組MACE進(jìn)行計(jì)算(Sullivan和VanRaden,2009),但大多數(shù)國(guó)家公布了基因型交換的預(yù)測(cè)結(jié)果;例如北美財(cái)團(tuán)(包括英國(guó),意大利,瑞士,德國(guó)和日本),歐洲基因組學(xué)(荷爾斯泰因)或基因組學(xué)(布朗瑞士)。交換基因型和家譜比在不同條件下以各種方式測(cè)量表型和分化標(biāo)準(zhǔn)更簡(jiǎn)單,來自50多個(gè)國(guó)家的育種者已經(jīng)從北美參考群體獲得了基因組預(yù)測(cè)。
非線性模型
閾值模型由Gianola和Foulley(1983)引入到動(dòng)物育種領(lǐng)域的閾值模型允許對(duì)二元或類別性狀(如死產(chǎn)或難產(chǎn))進(jìn)行適當(dāng)建模。正常性假設(shè)被違反,但是鏈接函數(shù)(例如probit,logit)將觀察到的二元或分類表型與父系EBV在基礎(chǔ)“責(zé)任”等級(jí)上匹配。正態(tài)分布曲線下方的區(qū)域被模擬,如果父系的EBV()小于第一閾值,則將其分配到類別1,而如果落在第一和第二閾值之間,則將其分配到類別2,等等。閾值模型通常應(yīng)用于產(chǎn)犢性狀,通常與母本效應(yīng)模型相結(jié)合,其使用通常限于父系模型(而不是動(dòng)物模型)。一般來說,閾值模型導(dǎo)致比通過用常規(guī)線性模型擬合二元或分類表型可以獲得的EBV更精確。
生存分析
失敗時(shí)間(生存分析)方法,如Cox或Weibull比例風(fēng)險(xiǎn)模型,在流行病學(xué)中被廣泛應(yīng)用,以解釋“審查”觀察的存在;即,對(duì)于開始或結(jié)束點(diǎn)(或兩者)未知的事件的時(shí)間測(cè)量。一個(gè)例子是生產(chǎn)性壽命(PL)的壽命或長(zhǎng)度,其是從第一次產(chǎn)犢到由于疾病,受傷或不育而死亡或撲殺的時(shí)間來衡量的。仍然活著的母牛的觀察結(jié)果是右刪失的,因?yàn)樗麄兊乃劳龌蛱蕴掌谑俏粗模拖癯鍪劢o另一個(gè)牛群用于奶牛目的的奶牛一樣。同樣地,日齡開放的表型(從產(chǎn)犢到妊娠時(shí)間計(jì)算的女性生育力的常見測(cè)量值)對(duì)于還沒有懷孕的母牛以及由于除了不育之外的原因而離開母牛的非懷孕母牛是正確的。 VanRaden和Klaaskate,1993)已經(jīng)實(shí)施了簡(jiǎn)單的方法,例如假設(shè)一個(gè)非懷孕母牛的天數(shù)或活牛壽命的任意大的值。 Ducrocq等人(1988)將威布爾比例風(fēng)險(xiǎn)模型擴(kuò)展到包括隨機(jī)加性遺傳效應(yīng)和關(guān)系,從而計(jì)算父系EBV的存活率。對(duì)右刪失記錄進(jìn)行適當(dāng)?shù)慕#梢园罅咳匀淮婊畹膭?dòng)物,從而獲得更及時(shí)和準(zhǔn)確的結(jié)果。以前的研究允許母牛的機(jī)會(huì)期(如84個(gè)月)充分表達(dá)生產(chǎn)性生活或終生凈利潤(rùn)的表型(如Cassell等,1993),但是到研究完成和手稿發(fā)表時(shí),年齡最小奶牛十多年前就出生了。這種方法的另一個(gè)優(yōu)點(diǎn)是能夠使用時(shí)間敏感的協(xié)變量,從而可以更精確地模擬隨時(shí)間變化的管理和環(huán)境因素。
基因組選擇標(biāo)記輔助選擇
如圖3所示,通過選擇在多基因遺傳假設(shè)下計(jì)算的EBV和無限小的模型(即大多數(shù)性狀受幾十或幾百個(gè)基因影響的概念,每個(gè)基因具有非常小的作用)獲得了巨大的遺傳進(jìn)展 。盡管如此,用于評(píng)估基因組水平上的變異的技術(shù),如RFLP或微衛(wèi)星標(biāo)記,使得遺傳學(xué)家能夠追求潛在的功能性突變或具有大的影響的QTL。最初的期望是非常不切實(shí)際的,許多研究人員和資助機(jī)構(gòu)認(rèn)為可以找到導(dǎo)致高產(chǎn)奶量,特殊女性生育能力或有吸引力的物理構(gòu)象的“基因”。影響精確映射的數(shù)量性狀的功能性突變的數(shù)目并且已經(jīng)充分表征了遺傳模式是可以忽略的,并且單基因選擇的效果已經(jīng)局限于以簡(jiǎn)單的孟德爾方式遺傳的遺傳缺陷。
從二十世紀(jì)八十年代末到二十一世紀(jì)初,開發(fā)了用于標(biāo)記輔助選擇的各種方法。關(guān)于通過各種方法鑒定的QTL的信息被納入用于遺傳評(píng)估的線性模型中,通常作為固定效應(yīng)。一個(gè)代表選擇候選者的EBV作為QTL1,QTL2,QTL3,...的估計(jì)效應(yīng)的總和。 。以及一個(gè)多基因EBV,它代表分散在整個(gè)基因組中的未知基因座,由關(guān)系矩陣A調(diào)節(jié)。由于標(biāo)記輔助選擇的遺傳進(jìn)展收益未能達(dá)到預(yù)期,Dekkers(2004)綜述,特別是當(dāng)致病突變是未知的,并且選擇依賴于群體范圍連鎖不平衡中的標(biāo)記,或者當(dāng)使用全群連鎖平衡中的標(biāo)記進(jìn)行選擇時(shí)。通常高估了顯著標(biāo)記的效應(yīng)(Beavis,1998),并且由于嚴(yán)格的顯著性閾值,許多影響較小的QTL被忽略(Lande和Thompson,1990)。

全基因組選擇
Nejati-Java- remi et al. (1997) and Meuwissen et al. (2001)的seminal基因組選擇論文,加上開發(fā)廉價(jià)的SNP標(biāo)記高通量基因分型平臺(tái)(Matukumalli等,2009),革新了奶牛的繁殖。研究人員開發(fā)了數(shù)十種方法和算法用于植物和動(dòng)物的整體基因組選擇(de Los Campos et al。,2013),奶牛育種者處于這一運(yùn)動(dòng)的前沿(VanRaden,2008;VanRaden等,2009;Wiggans et 2017年)。額外的好處,例如基于基因組發(fā)現(xiàn)缺失的祖先,可以進(jìn)一步提高遺傳進(jìn)展。考慮到從較少數(shù)目(n)的基因型個(gè)體的表型數(shù)據(jù)估計(jì)大量(p)SNP效應(yīng)的問題,與全基因組選擇相關(guān)的早期計(jì)算和統(tǒng)計(jì)障礙是艱巨的。
BLUP模型
已經(jīng)使用混合線性模型來估計(jì)SNP效應(yīng),其中向量u包含假定代表來自正態(tài)分布的樣本的SNP標(biāo)記;這提供了可以在基因組上加性的SNP效應(yīng)的BLUP估計(jì),以獲得新的候選基因組的基因組EBV(SNP-BLUP;Meuwissen等,2001)。等效地,可以從SNP基因型構(gòu)建基因組關(guān)系矩陣(G),并且當(dāng)計(jì)算基因組EBV(GBLUP)時(shí),取代BLUP中的基于譜系關(guān)系矩陣(A)。最初,SNP-BLUP比GBLUP在計(jì)算上需求更高,因?yàn)镾NP的數(shù)量超過了具有表型記錄的基因型動(dòng)物的數(shù)目。然而,主要乳品種的培訓(xùn)群體現(xiàn)在由成千上萬的具有后代數(shù)據(jù)的基因型公?;蚓哂谐煽?jī)記錄的數(shù)十萬個(gè)基因型奶牛組成。 GBLUP中混合模型系數(shù)矩陣的維數(shù)是基因型動(dòng)物數(shù)量的數(shù)量級(jí),其增長(zhǎng)速度非???,通常超過SNP的數(shù)量。盡管如此,GBLUP的吸引力還是因?yàn)樗趲资陙硪恢笔褂肂LUP的動(dòng)物育種者的熟悉度和易用性?;蚍中蛣?dòng)物的快速生長(zhǎng)是由于廉價(jià)的低密度SNP小組的可用性,其典型特征在于遍布基因組均勻分布的5,000至25,000個(gè)SNP。這些低密度基因型可與中等密度(50,000至100,000 SNP)或祖先的高密度(500,000至800,000 SNP)基因型相匹配,并且在低密度面板上遺漏的SNP以95至99%的準(zhǔn)確度填充使用基因型歸集算法(Habier等,2009;Weigel等,2010)。
一步GBLUP
Legarra等。 (2009)和Misztal等人(2009)解決了計(jì)算基因組預(yù)測(cè)時(shí)同時(shí)分析基因分型和未分型動(dòng)物表型的復(fù)雜挑戰(zhàn)。在此發(fā)展之前,直接基因組預(yù)測(cè)(直接基因組值,DGV)源自基因型動(dòng)物亞組中SNP基因型和相應(yīng)表型之間的關(guān)聯(lián)。在隨后的步驟中,使用選擇指數(shù)或加權(quán)平均值,將DGV與基于譜系的EBV進(jìn)行組合。 Legarra等人(2009)提出的單步GBLUP(ssGBLUP)最初的挑戰(zhàn)是, 認(rèn)為缺乏提高其計(jì)算效率的技巧,如亨德森(Henderson,1976)從血統(tǒng)書中創(chuàng)建A-1的快速方法。在ssGBLUP中,必須創(chuàng)建矩陣(H)的逆矩陣,其包括用于基因型動(dòng)物之間的基于基因組的關(guān)系的塊,非基因型動(dòng)物之間的基于系譜的關(guān)系以及基因型和非基因型動(dòng)物之間的基于系譜的關(guān)系。 Legarra等人(2014)開發(fā)了一種構(gòu)建H-1的高效方法,而ssGBLUP現(xiàn)在可以應(yīng)用于包含基因分型和未分型動(dòng)物的相對(duì)較大的數(shù)據(jù)集。
貝葉斯回歸模型
使用貝葉斯回歸建立另一組基因組預(yù)測(cè)模型。普通的最小二乘回歸方法不能適應(yīng)解釋變量(SNP)數(shù)超過數(shù)據(jù)點(diǎn)數(shù)的情況(有表型的動(dòng)物),但在貝葉斯回歸模型中,SNP效應(yīng)被視為基礎(chǔ)分布的隨機(jī)樣本。貝葉斯A(Meuwissen等人,2001)假定SNP效應(yīng)是從具有厚尾的t分布中采樣的,因此大多數(shù)SNP具有非常小的效應(yīng),但是少數(shù)SNP(推測(cè)與附近QTL處于連鎖不平衡中)可能具有大的影響。被稱為貝葉斯B(Meuwissen等人,2001)的類似方法假設(shè)SNP效應(yīng)代表2種分布的混合,其中標(biāo)記的一部分(π)對(duì)表型具有零效應(yīng),剩余部分(1-π)具有遵循t分布的效果??梢允褂弥T如Bayes C(Habier等人,2011)的方法從數(shù)據(jù)中任意預(yù)先確定分?jǐn)?shù)參數(shù)。 Erbe等人(2012)隨后開發(fā)了Bayes R,它具有正態(tài)分布的混合,并且適應(yīng)了零,小,中和大的SNP效應(yīng)。如果存在中等或較大效應(yīng)的QTL,貝葉斯回歸方法傾向于優(yōu)于GBLUP,而GBLUP在繼承接近無限小模型的情況下表現(xiàn)良好。對(duì)未來的擔(dān)憂是這些模型是否能為選擇候選物提供有力的繁殖價(jià)值估計(jì),因?yàn)橹挥猩贁?shù)動(dòng)物被選擇用于繁殖先進(jìn)的繁殖技術(shù)。我們的統(tǒng)計(jì)模型能夠在這個(gè)極端的選擇強(qiáng)度下正常運(yùn)行嗎?
機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,其重點(diǎn)是通過將高度靈活的算法應(yīng)用于觀察到的個(gè)體(標(biāo)記的數(shù)據(jù))的已知屬性(特征)和結(jié)果來預(yù)測(cè)未觀察到的個(gè)體(未標(biāo)記的數(shù)據(jù))的結(jié)果。結(jié)果可以是連續(xù)的,分類的或二元的。在動(dòng)物育種中,標(biāo)記的數(shù)據(jù)對(duì)應(yīng)于具有基因型和表型的老年動(dòng)物的參照群體或訓(xùn)練集,而未標(biāo)記的數(shù)據(jù)對(duì)應(yīng)于驗(yàn)證群體或僅具有基因型的測(cè)試組選擇候選者。用于預(yù)測(cè)的特征是SNP基因型。存在無數(shù)的機(jī)器學(xué)習(xí)算法,并且沒有一種方法提供了普遍優(yōu)越的預(yù)測(cè) - 不同的應(yīng)用程序和不同的應(yīng)用程序的最優(yōu)方法和參數(shù)是不同的。
隨著機(jī)器學(xué)習(xí)在其他領(lǐng)域的普及,在畜禽基因組預(yù)測(cè)方面也取得了一定的進(jìn)展。機(jī)器學(xué)習(xí)算法因其在大型雜亂數(shù)據(jù)集中發(fā)現(xiàn)模式的能力而廣為人知,即使在關(guān)于某些潛在解釋變量的數(shù)據(jù)丟失時(shí)也是如此。 Long等人(2007)是應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行基因組預(yù)測(cè)的第一批動(dòng)物育種家之一,他們使用過濾包裝法對(duì)肉雞健康特性進(jìn)行SNP分類。隨后的研究Gonz ez-Recio等人(2010)著重于基因組預(yù)測(cè)荷斯坦種公牛壽命凈功的強(qiáng)化算法,而Okut等(2011)使用人工神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)使用密集分子標(biāo)記的小鼠的體重指數(shù)。姚等人(2013)通過使用隨機(jī)森林算法來識(shí)別影響奶牛殘留采食量的潛在加性和上位性QTL,顯示了機(jī)器學(xué)習(xí)方法的巨大靈活性。最近,Ehret等人(2015)使用人工神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)德國(guó)的荷斯坦弗里斯蘭和弗列克牧人的產(chǎn)奶育種價(jià)值。
機(jī)器學(xué)習(xí),特別是用于實(shí)現(xiàn)多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,對(duì)于增強(qiáng)基因組選擇和牛群管理具有巨大的潛力。這些算法發(fā)現(xiàn)雜亂數(shù)據(jù)中復(fù)雜的模式并比傳統(tǒng)的統(tǒng)計(jì)方法更有效地預(yù)測(cè)結(jié)果的能力已經(jīng)在各種領(lǐng)域得到了證明。功能強(qiáng)大的算法在商業(yè)和公共領(lǐng)域軟件中很容易獲得,但是它們本質(zhì)上是“黑匣子”。最終用戶必須了解基本概念,如如何構(gòu)建獨(dú)立且適合于預(yù)期用途的訓(xùn)練和測(cè)試集,如何調(diào)整給定模型或算法的參數(shù),以及如何避免過度擬合訓(xùn)練數(shù)據(jù)和對(duì)模型在未來應(yīng)用中的預(yù)測(cè)能力做出不切實(shí)際的結(jié)論。機(jī)器學(xué)習(xí)算法的靈活性可能是有價(jià)值的,其中包含從設(shè)計(jì)實(shí)驗(yàn)中收集的生物學(xué)知識(shí),以及大量的基因組和表型數(shù)據(jù),用于預(yù)測(cè)選擇候選物的育種值。
近交系數(shù)
近交系數(shù)用于監(jiān)測(cè)一個(gè)品種內(nèi)遺傳多樣性的損失,并在計(jì)算遺傳評(píng)估時(shí)考慮近交衰退的影響。預(yù)計(jì)未來的近親繁殖是由美國(guó)農(nóng)業(yè)部自1998年以來計(jì)算的,通過測(cè)量每只公牛與同一品種的雌性樣本之間的關(guān)系,并且該統(tǒng)計(jì)可用于識(shí)別與該品種低度相關(guān)的“異交”公牛。自2005年以來,美國(guó)農(nóng)業(yè)部的基因評(píng)估已經(jīng)根據(jù)牛奶記錄的女兒與預(yù)期的未來配偶之間的差異進(jìn)行了調(diào)整,如果公牛的原配偶不是該品種的隨機(jī)樣本,就可能出現(xiàn)差異。近親繁殖的基因組測(cè)量,例如百分比雜合性或純合性運(yùn)行,可以在基因組水平提供更精確的相似性度量。基于基因組的預(yù)測(cè)來自給定牛和其未來配偶的假設(shè)小牛的近親繁殖可以促進(jìn)配偶分配決定,基因組數(shù)據(jù)可以為遺傳缺陷和近交抑制的遺傳基礎(chǔ)提供新的見解(VanRaden等,2011)。使用基因組數(shù)據(jù)評(píng)估品種組成現(xiàn)在是常規(guī)的,但缺乏在雜交育種系統(tǒng)中利用基因組數(shù)據(jù)的有效方法。品種內(nèi)遺傳多樣性的喪失仍然是一個(gè)問題,品種的管理者應(yīng)該監(jiān)測(cè)快速遺傳進(jìn)展與多樣性保持之間的平衡。沒有任何理由讓一只荷斯坦公牛來養(yǎng)育超過3000個(gè)經(jīng)過子代測(cè)試的兒子,這些兒子統(tǒng)治著每個(gè)大陸的人工授精母牛的牛欄,但這在實(shí)踐中已經(jīng)發(fā)生了。盡管基于最優(yōu)貢獻(xiàn)理論(Meuwissen,1997)提供了限制加性遺傳關(guān)系隨時(shí)間變化的速率的方法,但這些方法在實(shí)踐中并未被廣泛使用。實(shí)施農(nóng)場(chǎng),區(qū)域或生產(chǎn)系統(tǒng)特定的EBV和選擇指數(shù)將有效地解決近親繁殖和遺傳多樣性問題,同時(shí)也獲得與當(dāng)?shù)剡m應(yīng)相關(guān)的GXE的益處。
表型預(yù)測(cè)和管理診斷
動(dòng)物育種者幾乎癡迷于下一代候選子代的預(yù)期表現(xiàn)。目前這一代動(dòng)物的表現(xiàn)往往是事后的事情。他們還傾向于通過數(shù)據(jù)編輯消除似乎是由非遺傳原因引起的例外。例如,雙胎產(chǎn)犢的母牛通常從難產(chǎn)和死胎分析中去除,在泌乳早期(第一次DHIA試驗(yàn)之前)死亡的母牛從產(chǎn)奶量評(píng)估中去除,在機(jī)會(huì)期結(jié)束前淘汰母牛一個(gè)特定的疾病可能會(huì)從健康特性分析中被丟棄。然而,農(nóng)民必須根據(jù)當(dāng)代所有動(dòng)物的收入和支出來管理自己的業(yè)務(wù),包括那些動(dòng)物育種者認(rèn)為是例外的動(dòng)物。用于預(yù)測(cè)未來表型(例如估計(jì)的相對(duì)生產(chǎn)能力(ERPA)或最可能的生產(chǎn)能力(MPPA))的方程可以容易地從牛的EBV和相應(yīng)的永久環(huán)境效應(yīng)估計(jì)和其他相關(guān)的解釋變量計(jì)算。預(yù)測(cè)的未來表型可以包含非加性遺傳效應(yīng),在基于譜系或BLUP的基因組應(yīng)用中被忽略,并且這可能變得對(duì)特定突變及其作用模式特別有用。數(shù)十年來,乳制品檔案處理中心的報(bào)告向農(nóng)民提供了MPPA,ERPA和類似指標(biāo)的價(jià)值,但在做出撲殺和管理決策時(shí)很少使用這些信息。
現(xiàn)在,基因組測(cè)試已經(jīng)非常普遍,每個(gè)月都有成千上萬的小牛進(jìn)行測(cè)試,預(yù)測(cè)未來表型的效用大大提高。管理良好的現(xiàn)代化養(yǎng)殖場(chǎng)的牛群相對(duì)于維持群體規(guī)模所需的替代品數(shù)量,以及與飼養(yǎng)小母牛有關(guān)的飼料,勞力和住房成本,直到首次產(chǎn)犢時(shí)常常超過動(dòng)物的市場(chǎng)價(jià)值。根據(jù)預(yù)測(cè)的未來表型來剔除劣質(zhì)的小母牛犢牛,可能是將它們用于牛肉生產(chǎn),這是一種常見且經(jīng)濟(jì)上合理的做法(Weigel等,2012)??梢?strong>使用EBV進(jìn)行剔除決定,但是遺傳傾向性是對(duì)例如呼吸系統(tǒng)疾病引起的顯著肺損傷的小牛未來表型的不完全預(yù)測(cè)。預(yù)測(cè)的表型構(gòu)成了基因組引導(dǎo)的奶牛群管理的基礎(chǔ) - 牛等價(jià)于個(gè)性化醫(yī)療 - 如Weigel等人所述。 (2017)預(yù)測(cè)早產(chǎn)后荷斯坦奶牛的高酮血癥表型。
預(yù)測(cè)的表型被忽視的應(yīng)用是使用基因組數(shù)據(jù)進(jìn)行評(píng)估或牛群管理實(shí)踐的基準(zhǔn)化的機(jī)會(huì)?;蚪M測(cè)試可以描述給定農(nóng)場(chǎng)中的小牛,小母?;蚺5倪z傳傾向,并且該信息可以用于量化農(nóng)場(chǎng)的住房,熱量消減,飼料質(zhì)量,日糧配方,繁殖程序,健康協(xié)議,以及其他管理實(shí)踐使這些動(dòng)物充分表達(dá)其遺傳優(yōu)勢(shì)。例如,可以使用用于早期產(chǎn)后健康障礙的基因組預(yù)測(cè)(Vukasinovic等,2017)來評(píng)估牛群的過渡牛處理,或者可以退化泌乳中期奶牛的每日牛奶重量以用于牛產(chǎn)量的基因組預(yù)測(cè),以評(píng)估牛群的營(yíng)養(yǎng)計(jì)劃。
總結(jié)
在過去的一百年中,遺傳選擇程序從譜系記錄,表現(xiàn)記錄和子代比較,到成年動(dòng)物模型BLUP,全基因組預(yù)測(cè),非線性模型和機(jī)器學(xué)習(xí)算法的演變。 Grosu等人(2014)全面回顧了這些發(fā)展及其對(duì)全球奶牛改良項(xiàng)目的影響,而這次審查主要集中在美國(guó)。過去一個(gè)世紀(jì),奶牛育種者的每一次科學(xué)進(jìn)步都建立在他們前輩的肩膀上,與遺傳學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)同事的合作已經(jīng)取得了顯著的回報(bào)。此外,過去一個(gè)世紀(jì)中,奶牛育種者的每一次科學(xué)進(jìn)步都是為了解決影響奶農(nóng)的實(shí)際問題,解決可能傷害奶農(nóng)的潛在威脅,或利用可能使奶農(nóng)受益的機(jī)會(huì)。這正是立法者設(shè)想的贈(zèng)地大學(xué)制度和聯(lián)邦農(nóng)業(yè)研究機(jī)構(gòu)網(wǎng)絡(luò)的目標(biāo),也是納稅人被要求為這些努力提供資金的期望。未來100年的發(fā)現(xiàn)目前是不可想象的,但我們希望在產(chǎn)生能夠?qū)е陆】档膭?dòng)物,充滿活力的農(nóng)場(chǎng),滿意的消費(fèi)者和可持續(xù)的糧食生產(chǎn)體系的研究成果方面也會(huì)取得類似的成就。