前言
? ? ? ?水產(chǎn)動(dòng)物選擇育種,簡(jiǎn)單來說,就是挑選出合適的父母本,制定合理的育種方案,然后生產(chǎn)出經(jīng)濟(jì)性狀優(yōu)良的后代群體,最后賺了一個(gè)億,贏娶白富美走向人生巔峰的一門學(xué)科。我也是懷揣著這樣一個(gè)夢(mèng)想,選擇了這條道路,我想各位也是。夢(mèng)想一定要有的,萬一實(shí)現(xiàn)了呢?
? ? ? ?自己真正接觸蝦類遺傳育種也才一年的時(shí)間,初踏入這個(gè)領(lǐng)域,我一知半解甚至只是略懂皮毛的地方太多了。這是一門交叉學(xué)科,需要我們了解的知識(shí)面很多,例如生物統(tǒng)計(jì)學(xué),遺傳學(xué),育種學(xué),分子生物學(xué),計(jì)算機(jī)語言等,而且需要我們時(shí)刻的補(bǔ)充甚至更新自己的知識(shí)庫。在這里分享并且總結(jié)一下自己的經(jīng)驗(yàn),應(yīng)該如何快速了解和入門這個(gè)領(lǐng)域,盡量少走彎路,到所里能盡快上手所分配的工作。
? ? ? ?下面結(jié)合實(shí)際數(shù)據(jù)分析流程,介紹一些學(xué)習(xí)的資料,結(jié)合自己的方向,可以有選擇性的閱讀。
? ? ? ?首先墻裂推薦這個(gè)博客,淡泊明志/寧靜致遠(yuǎn) ,很多知識(shí)點(diǎn)講解的很明白,且遇到不懂的問題容易聯(lián)系作者。還有鄧飛的博客鄧飛的博客?
1、理論學(xué)習(xí)與專業(yè)應(yīng)用
? ? ? ?我們得到的數(shù)據(jù)中,有個(gè)體的名稱,父母本,家系類型,測(cè)試池類別,世代,性別,日齡,體重等記錄,你可能會(huì)想,直接記錄體重等表型就好了,為什么還要記錄這些?舉個(gè)例子,在一組數(shù)據(jù)中,我們想比較雌雄蝦的體重差異,利用數(shù)據(jù)直接作圖如下:

? ? ? ?圖一你可以看到雌雄之間的體重差異還是挺大的,下面再做一個(gè)不同測(cè)試池對(duì)應(yīng)的體重差異,如下圖:

? ? ? ?a) 可以看到,不同測(cè)試池也對(duì)蝦的體重有影響,那說明如果單純的利用數(shù)據(jù)中的體重,是有誤差不準(zhǔn)確的,如果想知道真實(shí)的雌雄蝦體重的差異,需要排除測(cè)試池等因素的影響。所以接下來,會(huì)用到線性模型的理論知識(shí),"Linear Models for the prediction of Animal Breeding Values" (第三版)或欒老師博客中也有詳細(xì)介紹。
? ? ? ?b) 有時(shí)候需要看兩組數(shù)據(jù)是不是存在顯著性差異或者我們?cè)诖_定模型之前,需要對(duì)模型中的每一個(gè)效應(yīng)進(jìn)行顯著性檢驗(yàn),這時(shí)候需要生物統(tǒng)計(jì)學(xué)的知識(shí),可以看杜榮騫的生物統(tǒng)計(jì)學(xué)(第四版);一些遺傳選擇育種方面的書,有一本講的很全面,"Genetic data analysis for plant and animal breeding"-Springer (2017),是結(jié)合asreml-win來講的,有線性模型,多性狀模型,方差組分,育種值,以及基因組育種等的介紹;另外還有,"selective breeding program in Aquaculture";張沅的 "家畜育種學(xué)"(第二版)。
? ? ? ?c) 張勤教授的"動(dòng)物遺傳育種中的計(jì)算方法", 里面有詳細(xì)的介紹遺傳評(píng)估的計(jì)算過程,更能加深理解。我們做遺傳評(píng)估計(jì)算過程主要是分兩步,首先用 REML(約束最大似然法)的方法,根據(jù)表型和親緣關(guān)系估算出方差組分,然后再利用BLUP(最佳線性無偏預(yù)測(cè))或GBLUP的方法估計(jì)育種值,遺傳力,遺傳進(jìn)展等。在這里我想先明確一個(gè)核心概念,育種值(breeding values)。因?yàn)槲以谝婚_始的時(shí)候?qū)@個(gè)概念很模糊,所以在這里我試著看能不能以一個(gè)簡(jiǎn)單的方式解釋一下。
? ? ? ?個(gè)體育種值是沒有辦法實(shí)際測(cè)量的,能測(cè)量到的數(shù)據(jù)是包含育種值在內(nèi)的遺傳效應(yīng)和環(huán)境效應(yīng)共同作用得到的實(shí)際表型數(shù)據(jù),例如收獲體重、體長(zhǎng)等,只能通過統(tǒng)計(jì)學(xué)的方法,結(jié)合表型數(shù)據(jù)和個(gè)體之間的親緣關(guān)系(可由系譜或分子標(biāo)記技術(shù)得到)對(duì)育種值進(jìn)行估計(jì)。動(dòng)物經(jīng)濟(jì)性狀一般來說都屬于數(shù)量性狀,根據(jù)數(shù)量遺傳理論,數(shù)量性狀在遺傳上受多個(gè)微效基因的控制,各個(gè)基因的效應(yīng)是可加的,所有基因效應(yīng)的累加值稱為育種值。遺傳效應(yīng)分為三種,加性遺傳效應(yīng),上位效應(yīng)和顯性效應(yīng),但是后兩項(xiàng)在遺傳給后代時(shí),由于基因的分離和重組,這兩部分一般不能確定遺傳,是不能被固定的效應(yīng),只有加性遺傳效應(yīng),是可以穩(wěn)定遺傳下去的。在實(shí)際生產(chǎn)中,育種值是我們挑選種蝦的主要依據(jù)。我們獲得所有蝦的收獲表型數(shù)據(jù)進(jìn)行遺傳評(píng)估后,每個(gè)個(gè)體的育種值會(huì)被估算出來,接下來對(duì)所有個(gè)體的育種值進(jìn)行排名,選擇育種值排名較高的個(gè)體作為種蝦的候選群體,接下來為配種方案做準(zhǔn)備。
2、常用工具
? ? ? ?目前我們做數(shù)據(jù)分析的主要工具是R(RStudio)語言,這是一個(gè)開源平臺(tái),區(qū)別于像SPSS,ORIGIN等點(diǎn)擊式軟件,R需要自己編寫代碼來運(yùn)行得到你所想要的結(jié)果,它的優(yōu)勢(shì)就在于靈活,沒有局限性,功能豐富全面等。所以,需要有編程基礎(chǔ),可以先初步學(xué)習(xí)一些基本操作語句,這本書應(yīng)該能幫到你:"R語言實(shí)戰(zhàn)"。學(xué)術(shù)討論群中有電子版,也可以買正版書籍,學(xué)起來比較方便。R語言實(shí)戰(zhàn)。此外,R中有全面的作圖功能,可以做出各式各樣的好看好玩的圖片,R語言實(shí)戰(zhàn)中也有介紹,但是如果有興趣可以學(xué)習(xí)這本書:"ggplot2:數(shù)據(jù)分析及圖形藝術(shù)":ggplot2。有一定基礎(chǔ)和精力還可以選擇學(xué)習(xí)Python。
? ? ? ?有一些常用的R包推薦,data.table 是data.frame包的擴(kuò)展,為R語言提供了快速整合和處理大型數(shù)據(jù)的能力,也能快速的讀入大數(shù)據(jù),詳細(xì)內(nèi)容和用法可以參考這篇博客:data.table。dplyr包,也是一個(gè)處理數(shù)據(jù)的包,能篩選,分割,整合等,還有很有特色的管道符功能,詳細(xì)請(qǐng)看: dplyr? 。遺傳評(píng)估的相關(guān)包有,asreml,sommer等,可以擬合線性混合模型估算遺傳參數(shù)。 另外如果涉及基因組選擇,需要處理SNP數(shù)據(jù),還會(huì)用到PLINK軟件進(jìn)行數(shù)據(jù)篩選,BLUPF90進(jìn)行H矩陣的構(gòu)建等,我這邊有一些基因組選擇的相關(guān)R代碼,我們可以一起討論。
? ? ? ?上面的一些書在學(xué)術(shù)討論小組群文件里是有的,可以根據(jù)自己的方向和興趣選擇性閱讀。最好自己有一個(gè)像博客、簡(jiǎn)書、印象筆記之類的能夠記錄的地方,在這里能不定期總結(jié)歸納新知識(shí)、下一步的計(jì)劃等。