轉(zhuǎn)自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml
全基因組重測序是通過對已有參考序列(Reference Sequence)的物種的不同個體進(jìn)行基因組測序,并以此為基礎(chǔ)進(jìn)行個體或群體水平的遺傳差異性分析。通過全基因組重測序,研究者可以找到大量的單核苷酸多態(tài)性位點(diǎn)(SNP)、拷貝數(shù)變異(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)、結(jié)構(gòu)變異(Structure Variation,SV)等變異位點(diǎn)?;谝陨献儺愇稽c(diǎn)作為分子遺傳標(biāo)記,在人類復(fù)雜疾病、動植物經(jīng)濟(jì)性狀和育種研究及物種起源、馴化、群體歷史動態(tài)等方面具有重大的指導(dǎo)意義(Bentley2006; Casillas& Barbadilla 2017)。
一、 基礎(chǔ)理論知識
全基因組重測序研究主要是依據(jù)在全基因組水平發(fā)現(xiàn)的分子遺傳標(biāo)記進(jìn)行物種的群體遺傳學(xué)研究,進(jìn)一步的利用統(tǒng)計(jì)方法進(jìn)行影響表型和經(jīng)濟(jì)性狀候選基因和功能突變的研究。分子群體遺傳學(xué)研究的理論基礎(chǔ)知識及統(tǒng)計(jì)分析方法日趨完善和呈現(xiàn)多樣性,作為初學(xué)者,有必要對其中的一些基礎(chǔ)概念有一定的了解,才能為后續(xù)的深入學(xué)習(xí)、研究提供基石。以下基礎(chǔ)知識主要參考國內(nèi)動物遺傳學(xué)書籍和最新的一篇關(guān)于分子群體遺傳學(xué)方面的綜述改變而成(吳仲賢編1961; 李寧2011; 吳常信2015; Casillas & Barbadilla 2017)。高通量測序技術(shù)作為分子群體遺傳學(xué)研究的有力工具,在科學(xué)研究、生產(chǎn)及疾病診斷治療中起到原來越重要的作用,對關(guān)于高通量測序相關(guān)的理論基礎(chǔ)知識進(jìn)行一定程度的了解,也有助于文獻(xiàn)閱讀和。
1. 群體遺傳學(xué)基礎(chǔ)知識
群體(Polulation):是指生活在一定空間范圍內(nèi),能夠相互交配并生育具有正常生殖能力后代的同種個體群。
等位基因頻率(Alleles frequency):在一個群體中,某類等位基因占該基因位點(diǎn)上全部等位基因數(shù)的比率。
基因型頻率(Genotype Frequence):群體中某一基因型個體的數(shù)目占群體總個數(shù)的比例??梢苑从衬骋换蛐蛡€體在群體中的相對數(shù)量。
遺傳平衡定律或哈迪.溫伯格定律(Hardy-Weinburg):在隨機(jī)交配下的孟德爾群體中,如沒有替他因素(基因突變、遷移和選擇)的干擾,群體的基因頻率和基因型頻率將逐代保持不變。
連鎖平衡(Linkage equilibrium):兩個基因座的等位基因組合的頻率等于組成組合的等位基因各自頻率的乘積,不存在優(yōu)勢組合,稱為連鎖平衡。
連鎖不平衡(Linkage Disequilibrium):相鄰位點(diǎn)之間的非隨機(jī)關(guān)聯(lián),當(dāng)一個位點(diǎn)上的某一等位基因與另一位點(diǎn)上的等位基因共同出現(xiàn)的概率大于隨機(jī)組合的假設(shè),則這兩個位點(diǎn)之間存在連鎖不平衡。
適合度(fitness):指一個個體能夠生存并將其基因傳給下一代的能力,可用相同環(huán)境中不同個體的相對生育率來衡量(即在選擇中,某一基因型個體在下一代平均保留后代數(shù)的比率)。
選擇系數(shù)或淘汰率(selectivity coefficient,用s表示):某一基因型個體在下一代淘汰的個體數(shù)占總后代數(shù)的比率。
群體分層(population stratification):群體分層是指群體內(nèi)存在亞群的現(xiàn)象,亞群內(nèi)部個體間的相互關(guān)系大于整個群體內(nèi)部個體間的平均親緣關(guān)系。
核苷酸多態(tài)性(π):衡量特定群體多態(tài)性高低的參數(shù),是指在同一群體中隨機(jī)挑選的兩條DNA序列在各個核苷酸位點(diǎn)上核苷酸差異的均值。π值越大,說明其對應(yīng)的亞群多態(tài)性越高。
群體間固定指數(shù)(Fst):衡量群體中等位基因頻率是否偏離遺傳平衡論比例的指標(biāo),用來研究不同群體間的分化程度。其取值為0到1,0代表兩個群體未分化,其成員間是完全隨機(jī)交配的;1代表兩個群體完全分化,形成物種隔離,且無共同的多樣性存在。
θw:Watterson’s 多態(tài)性估值,從理論上說,在中性條件下,應(yīng)當(dāng)有θW=4Neμ的平衡狀態(tài),Ne表示有效群體大小,μ表示每一代的序列突變率。
瓶頸效應(yīng)(Bottle effects):由于環(huán)境驟變(如火災(zāi)、地震、洪水等)或人類活動(如人工選擇、馴化),使得某一生物種群的規(guī)模迅速減少,僅有一少部分個體能夠順利通過瓶頸事件,在之后的恢復(fù)期內(nèi)產(chǎn)生大量后代。
基因的隨機(jī)漂移或遺傳漂變(random genetic drift):由某一代基因庫中抽樣形成下一代個體的配子時發(fā)生機(jī)誤,這種機(jī)誤引起基因頻率的變化稱之為基因的隨機(jī)漂移或遺傳漂變。換句話說,就是利用隨機(jī)抽樣的辦法建立小群體時,由于抽樣誤差引起基因頻率隨機(jī)波動的現(xiàn)象。
始祖效應(yīng)、奠基者效應(yīng)或建立者效應(yīng)(Founder Effect):有少數(shù)個體的基因頻率決定了他們后代中的基因頻率的效應(yīng),是一種極端的遺傳漂變作用。
遷移壓力(又叫基因流,Gene Flow):
由于某種原因,具有某一基因頻率的群體的一部分移入基因頻率與其不同的另一群體,并雜交定居,就會引起遷入群體的基因頻率發(fā)生改變。
有效群體大小(effective population size,Ne):
是指與實(shí)際群體具有相同基因頻率方差或相同雜合度衰減率的理想群體大小,它反映了群體平均近交系數(shù)增量的大小以及群體遺傳結(jié)構(gòu)中基因的平均純合度。
中性學(xué)說(neutral theory):
認(rèn)為分子水平上的大多數(shù)突變是中性或近中性的,自然選擇對它們不起作用,這些突變靠一代又一代的隨機(jī)漂變而被保存或趨于消失,從而形成分子水平上的進(jìn)化性變化或種內(nèi)變異。
突變壓力:一定條件下,一個群體的突變率可明顯增高,形成突變壓力,使某個基因頻率增高。
選擇壓力(selection pressure):受某種環(huán)境條件的影響,某些突變型被選擇所作用,使突變基因的頻率降低。
選擇(selection):在人類和自然界的干預(yù)下,某一群體的基因在世代傳遞過程中,某種基因型個體的比例所發(fā)生變化的群體遺傳學(xué)現(xiàn)象(張沅 2001; 馬云龍 2015)。
正選擇或方向性選擇、定向選擇(Positive selection or Directional selection):正向選擇是選擇中最常見的一種形式,當(dāng)群體中出現(xiàn)新的有利突變時,該位點(diǎn)對應(yīng)的適合度將從一種極端向著另一個極端轉(zhuǎn)化。在這種適應(yīng)性進(jìn)化的過程中,選擇作用是有利突變位點(diǎn)方向性進(jìn)化的潛在驅(qū)動力。
負(fù)選擇或凈化選擇(Negative selection or Purifying selection):是指在群體中的某種表型性狀不再適應(yīng)目前環(huán)境或育種需求時,與該性狀相關(guān)聯(lián)的等位基因頻率將會被選低或被淘汰的過程。通常該類等位基因所關(guān)聯(lián)的表型性狀對群體在當(dāng)前環(huán)境下的生存和繁衍是不利的。
平衡選擇(Balance selection):一些等位基因的純合體僅在正常的雜交群體的少數(shù)個體中存在,并且在適合度上低于雜合體,然后將會出現(xiàn)有利于在許多座位上發(fā)展復(fù)等位基因系列的選擇壓力。因此,平衡選擇能夠在種群中維持遺傳學(xué)多樣性,而不是僅選擇一個最有利的基因型。(即由于超顯性等作用,群體中的某些性狀的潛在作用位點(diǎn)始終在選擇的作用線保持較高的遺傳多態(tài)性、對應(yīng)較高的雜合度,可能與家畜育種中雜種優(yōu)勢有關(guān))。
平行選擇(Parallel selection):與平衡選擇相對應(yīng),同物種群體不同亞群之間,由于偶然或其它一些主觀因素,造成影響某些性狀的潛在遺傳位點(diǎn)向著同樣的方向被選擇被稱為平行選擇(例如:不同奶牛品種中對產(chǎn)奶量的選擇)。
歧化選擇(Divergent selection):選擇作用使影響某些性狀的潛在遺傳位點(diǎn)在不同的亞群中向著不同的方向進(jìn)化現(xiàn)象(例如:果蠅的長翅與殘翅)。
選擇性清除(Selective sweep):在中性進(jìn)化理論下,一個新的突變往往需要很長一段時間才能夠在群體中達(dá)到一個較高的頻率,并且這些突變周圍的連鎖不平衡程度會因重組率的影響而在這段時間內(nèi)幾乎完全衰減降解。因此,基因組上絕大多數(shù)未受到選擇作用的位點(diǎn)會始終處于隨機(jī)漂變狀態(tài),彼此之間形成的連鎖不平衡容易衰減,單倍型長度相對較短。然而在選擇的作用下,群體有利等位基因頻率則會在較短的時間內(nèi)達(dá)到一個較高的值,重組的作用會受到一定程度的對沖而不能對長范圍單倍型造成實(shí)質(zhì)性的降解。同時,選擇作用下的連鎖不平衡會造成選擇位點(diǎn)附近的中性位點(diǎn)的基因頻率隨之增加形成長范圍的單倍型純合。群體遺傳學(xué)中,將這種由選擇作用造成的部分染色體片段的多態(tài)性降低現(xiàn)象稱為選擇性清除。
搭便車效應(yīng)(Hitchhiking Effect):選擇位點(diǎn)周圍的中性位點(diǎn)得益于選擇作用而出現(xiàn)的基因頻率迅速增加的現(xiàn)象,則被通俗地稱為“搭便車”效應(yīng)。
選擇信號(Selection signature):選擇性掃除和“搭便車”效應(yīng)屬于從不同角度表述的同一群體遺傳學(xué)現(xiàn)象,都是選擇作用在基因組上留下的明顯特征,此特征被稱為選擇信號。
微進(jìn)化(microevolution):群體在世代過程中等位基因頻率的變化,成為微進(jìn)化,即發(fā)生在物種內(nèi)的遺傳變化。
大進(jìn)化(macroevolution):從現(xiàn)有物種中產(chǎn)生新物種的過程,是微進(jìn)化的擴(kuò)展、累積的結(jié)果。
趨同進(jìn)化(convergent evolution):在突變和選擇的作用下,不同物種間具有趨同進(jìn)化的趨勢,這種現(xiàn)象稱協(xié)同進(jìn)化。
遺傳負(fù)荷(genetic load):如果一個群體的突變不斷積累,并且這些突變是有害的,就會出現(xiàn)適合度下降。這種現(xiàn)象稱為遺傳負(fù)荷。
Gap:空缺
胚系突變(Germline variant):又叫生殖細(xì)胞突變,是來源于精子或卵子這些生殖細(xì)胞的突變,因此通常身上所有細(xì)胞都帶有突變;
體細(xì)胞突變(Somatic mutation)又叫獲得性突變,是在生長發(fā)育過程中或者環(huán)境因素影響下后天獲得的突變,通常身上只有部分細(xì)胞帶有突變。
錯義突變(missense mutation):是指DNA的突變引起mRNA中密碼子改變,編碼另一種氨基酸.如DNA中某GAA發(fā)生轉(zhuǎn)換突變成AAA后,使原編碼的谷氨酸(Glu)改變?yōu)橘嚢彼幔↙ys)。
沉默突變(silent mutation):也稱同義突變(same-sense mutation)DNA的突變雖引起mRNA中密碼子改變?yōu)榱硪环N密碼,但由于密碼子的兼并作用,并未使編碼的氨基酸改變。
無義突變(nonsense mutation):DNA的突變引起mRNA中的密碼子改變?yōu)橐环N終止密碼子。
同義突變與非同義突變區(qū)別:不導(dǎo)致氨基酸改變的核苷酸變異我們稱為同義突變,反之則稱為非同義突變。一般認(rèn)為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用。在進(jìn)化分析中,了解同義突變和非同義突變發(fā)生的速率是很有意義的。常用的參數(shù)有以下幾種:同義突變頻率(Ks)、非同義突變頻率(Ka)、非同義突變率與同義突變率的比值(Ka/Ks)。如果Ka/Ks>1,則認(rèn)為有正選擇效應(yīng)。如果Ka/Ks=1,則認(rèn)為存在中性選擇。如果Ka/Ks<>
2. 高通量測序常見術(shù)語
高通量測序技術(shù)(High-throughput sequencing,HTS):是對傳統(tǒng)Sanger測序(稱為一代測序技術(shù))革命性的改變, 一次對幾十萬到幾百萬條核酸分子進(jìn)行序列測定, 因此在有些文獻(xiàn)中稱其為下一代測序技術(shù)(next generation sequencing,NGS )足見其劃時代的改變, 同時高通量測序使得對一個物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能, 所以又被稱為深度測序(Deep sequencing)。
Read(讀段):高通量測序平臺產(chǎn)生的短序列就稱為reads。(例如:PE125,就是讀長為125bp雙端測序)
PEread(Pair-end read):雙末端測序讀段
SEread(Single-end):單末端測序讀段
混合分組分析(BSA,bulk segregant analysis),是一種常見的利用樣本混合池(DNA pooling)重測序進(jìn)行QTL定位的方法。
單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNP):主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。它是人類可遺傳的變異中最常見的一種。占所有已知多態(tài)性的90%以上。
structure variation(SV):基因組結(jié)構(gòu)變異
染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失(引起CNV的變化),染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體之間發(fā)生重組(inter-chromosometrans-location)等。一般SV的展示利用Circos軟件。
Indel,即插入/缺失(insert/deletion)
SV,即結(jié)構(gòu)變異(structural variation),一般是指長度在1000bp以上的DNA區(qū)域存在倒位、轉(zhuǎn)位和插入缺失的現(xiàn)象,通常又稱為拷貝數(shù)變異(CNVs, copy number variants)。當(dāng)一個CNV在群體中的頻率超過1%,又稱為拷貝數(shù)多態(tài)性(CNP,copy number polymorphism).。CNV 是基因組結(jié)構(gòu)變異(Structural variation, SV) 的重要組成部分。CNV位點(diǎn)的突變率遠(yuǎn)高于SNP(Single nucleotide polymorphism), 是人類疾病的重要致病因素之一。
Segmentduplication:一般稱為SD區(qū)域,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用。在人類染色體Y和22號染色體上,有很大的SD序列。
泛基因組:對多個個體的基因組進(jìn)行從頭組裝,尋找結(jié)構(gòu)變異的方法。
3.常見縮略語表
FDR(False Discovery Rate):錯誤發(fā)現(xiàn)率
IBD(Identical by desent):同源相同
IBS(Identical by state):同態(tài)相同
MAF(Minor allele frequency):最小等位基因頻率
GO (Gene Ontology) :基因本體,是一個在生物信息學(xué)領(lǐng)域中廣泛使用的本體,它涵蓋生物學(xué)的三個方面:細(xì)胞組分、分子功能、生物過程。
KEGG(Kyoto Encyclopedia of Genesand Genomes):KEGG 是了解高級功能和生物系統(tǒng)(如細(xì)胞、生物和生態(tài)系統(tǒng)),從分子水平信息,尤其是大型分子數(shù)據(jù)集生成的基因組測序和其他高通量實(shí)驗(yàn)技術(shù)的實(shí)用程序數(shù)據(jù)庫資源,由日本京都大學(xué)生物信息學(xué)中心的Kanehisa實(shí)驗(yàn)室于1995年建立。是國際最常用的生物信息數(shù)據(jù)庫之一,以'理解生物系統(tǒng)的高級功能和實(shí)用程序資源庫'著稱。
二、數(shù)據(jù)分析內(nèi)容
1. 初級數(shù)據(jù)分析
主要指一般情況下,測序公司給我們的反饋回來的初步數(shù)據(jù)分析結(jié)果。主要包括以下內(nèi)容。
●測序質(zhì)量報告
一般是使用FastQC、NGSQCToolkit等軟件,對測序原始數(shù)據(jù)質(zhì)量進(jìn)行查看。主要內(nèi)容包括。BasicStatistics、Per base sequence quality、Persequence quality scores……Kmer Content等11項(xiàng)內(nèi)容。目前這部分內(nèi)容一般在發(fā)表論文時很少放在正文圖表里,大多數(shù)放在補(bǔ)充材料里面,作為補(bǔ)充參考內(nèi)容。此外,目前測序技術(shù)和測序公司在基因組測序這塊做的都比較成熟,所以這部分內(nèi)容只需要看一下測序結(jié)果是否可靠即可,僅作為能否進(jìn)行下一步分析的原始數(shù)據(jù)質(zhì)量指標(biāo)。
**●****數(shù)據(jù)量產(chǎn)出、質(zhì)量控制與mapping(數(shù)據(jù)比對)統(tǒng)計(jì) **
數(shù)據(jù)產(chǎn)出統(tǒng)計(jì):Read Length(讀度長度) 、原始read數(shù)、總堿基數(shù)量和測序深度分析
質(zhì)量控制:過濾基本參數(shù)、Clean reads結(jié)果統(tǒng)計(jì)和過濾后的高質(zhì)量堿基總數(shù)
Mapping統(tǒng)計(jì):Total Mapping Reads、UnMapped Reads統(tǒng)計(jì)、Mapping率和測序覆蓋度
●遺傳變異檢測(編碼區(qū)和非編碼區(qū)SNP、InDel、CNV和SV檢測、統(tǒng)計(jì)分析)
SNPCalling 計(jì)算(SNPCalling)。檢測全基因組中所有多態(tài)性位點(diǎn),結(jié)合質(zhì)量值、測序深度、重復(fù)性等因素作進(jìn)一步的過濾篩選,最終得到可信度高的SNP數(shù)據(jù)集。一般采用整合多種SNP探測算法的結(jié)果,綜合地,更準(zhǔn)確地識別出SNP(一般是GATK+Samtools)。通過對多種算法各自識別的SNP進(jìn)行一致性分析,保留具有高度一致性的SNP作為最終SNP結(jié)果。并根據(jù)參考基因組信息對檢測到的變異進(jìn)行注釋。(常用軟件主要有FRAPPE:https://github.com/frappe/frappe;GATK:https://software.broadinstitute.org/gatk/;FreeBayes:;Samtools:https://sourceforge.net/projects/samtools/?source=navbar)
這些具有高度一致性的SNP同時具有非常高的可信度。在分析中使用到的SNP識別算法包括基于貝葉斯和基因型似然值計(jì)算的方法,以及使用連鎖不平衡LD或推斷技術(shù)用于優(yōu)化SNP識別檢出的準(zhǔn)確性(常見基因型推斷軟件有:Beagle、impute2、Fastphase、Phase等軟件)。
統(tǒng)計(jì)SNV的等位基因頻率在全基因組上的分布
稀有等位基因數(shù)目在不同類別的SNV中的比率分布(a);SNV的類別主要考慮:(1)無義(nonsense),(2)化學(xué)結(jié)構(gòu)中非同義,(3)所有非同義,(4)保守的非同義,(5)非編碼,(6)同義,等類型SNV;另外,針對保守性的討論,我們將分析非編碼區(qū)域SNV的保守型情況及其分布。
分析對象包括全新預(yù)測的SNP,indel,large deletion, 以及外顯子SNP在每個等位基因頻率類別下的數(shù)目比率(fraction)。全新預(yù)測是指預(yù)測分析結(jié)果與dbSNP(當(dāng)前版本129)以及deletion數(shù)據(jù)庫dbVar(2010年6月份版本)和已經(jīng)發(fā)表的有關(guān)indels研究的基因組數(shù)據(jù)經(jīng)過比較后識別確定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因組學(xué)研究(JC Ventrer 以及Watson 基因組,炎黃計(jì)劃亞洲人基因組)結(jié)果提供的short indels和large deletion。
計(jì)算SNP,Deletion,以及Insertion 大小分布。計(jì)算SNP,Deletion,以及Insertion中屬于全新預(yù)測結(jié)果的數(shù)目占已有各自參考數(shù)據(jù)庫數(shù)目的比例(相對于dbSNP數(shù)據(jù)庫;dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因組學(xué)研究(JC Ventrer 以及Watson 基因組,炎黃計(jì)劃亞洲人基因組)結(jié)果提供的short indels和large deletion)其中,可以給出LINE,Alu的特征位置。
InDel檢測及在基因組的分布:
在進(jìn)行mapping的過程中,進(jìn)行容gap的比對并檢測可信的short InDel。在檢測過程中,gap的長度為15個堿基。對于每個InDel的檢測,至少需要3個Paired-End序列的支持。理論上可以檢測150bp的插入缺失突變。
CNV拷貝數(shù)變異與SV結(jié)構(gòu)變異檢測及在基因組中的分布:
能夠檢測到的結(jié)構(gòu)變異類型主要有:插入、缺失、復(fù)制、倒位、易位等。根據(jù)測序個體序列與參考基因組序列比對分析結(jié)果,檢測全基因組水平的結(jié)構(gòu)變異并對檢測到的變異進(jìn)行注釋。
拷貝數(shù)變異檢測軟件:
CNVnator:
●****變異類型注釋(發(fā)生區(qū)域統(tǒng)計(jì))
常見軟件有SnpEff、ANNOVAR、等
●密碼子和氨基酸變化統(tǒng)計(jì)
●堿基替代類型和比例統(tǒng)計(jì)
●各基因變異分布統(tǒng)計(jì)
●候選位點(diǎn)檢測、統(tǒng)計(jì)、注釋
●候選基因GO、KEGG功能注釋
生物學(xué)通路(Biological pathway),包括代謝通路和信號轉(zhuǎn)導(dǎo)通路是生物功能的重要組成部分,我們將各種形式的突變、變異,包括SNV和SNP,的對應(yīng)基因放到生物學(xué)通路中進(jìn)行綜合分析,考察功能性突變對pathway的影響程度和影響的規(guī)律。通過GSEA(配合芯片表達(dá)譜數(shù)據(jù)),KS檢驗(yàn),超幾何分布檢驗(yàn)等方法對變異基因在某些pathway的富集程度進(jìn)行排序,識別發(fā)生功能改變的潛在通路。
2.高級數(shù)據(jù)分析
●群體遺傳多樣性分析
主要指標(biāo)有:群體遺傳多樣性指數(shù)計(jì)算
常見分析軟件:Arlequin、VCFtools等
●**群體進(jìn)化研究 **
·主成分分析(PCA)
·系統(tǒng)發(fā)生分析(Phylogenetic)
·遺傳結(jié)構(gòu)(STRUCTURE)
全基因組群體進(jìn)化分析是對同一物種的不同亞群或不同地理分布的品種進(jìn)行全基因組重測序,通過與參考基因組序列進(jìn)行比對,獲得大量高精度的SNP、InDel等變異信息,進(jìn)行群體的遺傳結(jié)構(gòu)、群體主成分、連鎖不平衡和選擇性消除等群體遺傳學(xué)分析,從而在分子層面揭示物種的進(jìn)化機(jī)制、環(huán)境適應(yīng)性、種群演化歷史等系列問題。
**●遺傳圖譜構(gòu)建 **
●群體遺傳結(jié)構(gòu)分析
●**QTL定位 **
進(jìn)行QTL定位一般都需要詳盡的表型數(shù)據(jù)記錄、構(gòu)建群體,當(dāng)然自然群體也是可以的(但遺傳背景的影響較大,理想狀態(tài)下可以得出預(yù)期結(jié)果)
●全基因組關(guān)聯(lián)分析(GWAS)
隨著二代測序技術(shù)的發(fā)展以及測序成本的不斷降低,利用全基因組變異數(shù)據(jù)進(jìn)行基因分型變得越來越容易,導(dǎo)致用于關(guān)聯(lián)分析的樣本量和標(biāo)記數(shù)不斷增大,原始的MLM模型求解所耗的時間可以用mpn3來表示(m為標(biāo)記數(shù)目,p為求解過程的迭代次數(shù),n為樣本數(shù)),可見,隨著樣本量的增加,每迭代一步,計(jì)算時間都會以樣本3次方增長,這使得計(jì)算的時間變得非常長。
在GWAS分析中,群體結(jié)構(gòu)和遺傳背景是造成的假陽性高的主要因數(shù)。在假陽性控制條件下,如何在更大程度上利用遺傳標(biāo)記,提高個體數(shù)據(jù)的計(jì)算效率和提高檢測功效是分析軟件算法開發(fā)的主要問題。Plink是釋放較早的GWAS軟件,其計(jì)算通量和速度很高,可以實(shí)現(xiàn)基于等位基因頻率各種非參數(shù)檢驗(yàn)、一般線性模型(GLM)和logistic回歸。該軟件在人類復(fù)雜疾病病例對照研究中應(yīng)用比較廣泛,極大地促進(jìn)了GWAS的進(jìn)展。
利用基因組數(shù)據(jù)可以進(jìn)行對影響表型性狀的基因和功能突變進(jìn)行定位,有助于
但目前利用成本較高,所以在試驗(yàn)前期設(shè)計(jì)時,盡量收集更多的表型信息,以充分利用數(shù)據(jù)。
常見分析軟件與算法:
PLINK、Tassel5.0、GAPIT、GenABEL(R庫)、EMMAX、SNPassoc(R包)、GRAMMAR-Gamma、FaST-LMM、FaST-LMM-Select和BOLT-LMM。
●選擇性清除分析(選擇壓力分析)
選擇性清除分析主要通過物種的基因組DNA測序觀測到體細(xì)胞突變在自然選擇、人工選擇等作用下可能是經(jīng)歷的復(fù)雜過程及與物種特殊性狀相關(guān)的基因組特征。
自然選擇分析我們選擇信號檢測分析
正向選擇的判定:分析SNP,SNV區(qū)域的正向選擇趨勢,在進(jìn)化和群體遺傳水平解釋SNV,SNP的功能性;對待control與case 組樣本,我們分別采用不同統(tǒng)計(jì)算法計(jì)算SNP,CNV在各自樣本中的差異,進(jìn)而從中發(fā)現(xiàn)具有正向選擇特征的SV。
常染色體信號檢測分析
在目前主流的分析中,一般只考慮常染色體的選擇信號分析,挖掘與重要經(jīng)濟(jì)性狀、馴化、適應(yīng)等相關(guān)的功能區(qū)域和突變。
性染色體選擇信號分析
研究發(fā)現(xiàn),基因組多態(tài)的降低, 19%26%是由常染色體選擇造成的,而12%40%歸因于性染色體的選擇作用(Mcvicker et al. 2009)。因此,通過對不同物種X染色體的選擇信號檢測分析,揭示其遺傳機(jī)理和與重要性狀的關(guān)聯(lián)十分必要。已經(jīng)在馬、豬、綿羊和人上進(jìn)行了適應(yīng)、經(jīng)濟(jì)性狀、性別拮抗等方面的研究(Heyer& Segurel 2010; 馬云龍 et al. 2012; Zhu et al. 2015; 劉雪雪 et al. 2015; Lucotte et al. 2016; Liu et al. 2018)。
在參考基因組性染色體組裝比較完善的基礎(chǔ)上進(jìn)行性染色體的分析,可以充分利用、挖掘基因組數(shù)據(jù)中所包含的信息,也是一個不錯的研究內(nèi)容??梢詥为?dú)作為一篇研究論文進(jìn)行研究分析。
●突變功能預(yù)測
根據(jù)選擇性清除分析、GWAS分析、QTL-seq等分析方法獲得與生物特殊性狀或表型相關(guān)的候選基因,通過以下軟件對突變導(dǎo)致的基因功能變化進(jìn)行預(yù)測,為后續(xù)的功能驗(yàn)證提供數(shù)據(jù)支持(章亮& 蘇志煕 2016)。
PolyPhen2:確定突變功能的大小
SIFT:
LRT:
Condel:
Logit
Mutation Taster-2、
Mutation Assessor
3.試驗(yàn)設(shè)計(jì)類型
隨著Illumina公司的Nova-seq、X-Ten、華大基因的BGI-Seq系列等測序儀的成熟與普及,重測序價格將繼續(xù)越來越平民化。鑒于重測序已經(jīng)是常見的研究工具,比拼測序規(guī)模已經(jīng)慢慢失去價值,而我們大部分人非數(shù)學(xué)/統(tǒng)計(jì)學(xué)家出身,很難去進(jìn)行新的算法的開發(fā)。在試驗(yàn)技術(shù)、分析方法大同小異的時代,要想脫穎而出,注定要求我們要加強(qiáng)相關(guān)生物問題以及對各種數(shù)據(jù)分析方法的理解程度、提高實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)挖掘解讀能力。
QTL定位(包含GWAS,表型):QTL定位是廣義上的QTL定位,包括經(jīng)典的連鎖分析和關(guān)聯(lián)分析。QTL定位中的連鎖分析和關(guān)聯(lián)分析,其核心區(qū)別是所研究群體的特性不同,但兩種分析方法在統(tǒng)計(jì)學(xué)上幾乎沒有本質(zhì)區(qū)別??傮w而言,QTL定位是一類依賴表型鑒定的方法。我們需要精確衡量所有個體的表型,然后通過表型和基因型的相關(guān)性分析(有多種模型供選擇),定位與性狀相關(guān)的QTL。隨著測序價格的不斷下降,QTL定位的核心問題實(shí)際上是表型鑒定。個體表型鑒定的準(zhǔn)確性受多種因素的影響,其準(zhǔn)確性直接影響了QTL定位的效果。因?yàn)槟承┍硇?,必須在某種環(huán)境條件下才能表現(xiàn)(例如,抗旱能力必須在干旱條件下才可以被觀察),所以要求個體必須要被嚴(yán)格控制在相似的環(huán)境條件下進(jìn)行檢測。
對于人類這種可以主動配合實(shí)驗(yàn)的物種來說,表型鑒定往往還相對容易。但對動物植物來說,要想進(jìn)行精確的表型鑒定,則意味著這個物種是已經(jīng)被馴化的。只有在人工馴化的環(huán)境下,控制生存環(huán)境,精確的表型鑒定才能成為可能。
群體遺傳(選擇壓力分析)。
根據(jù)研究目的和試驗(yàn)設(shè)計(jì)特點(diǎn),小編主要以經(jīng)典文章的舉例來剖析今后試驗(yàn)設(shè)計(jì)、分析方法。
而QTL定位和選擇壓力分析,本質(zhì)上也是實(shí)驗(yàn)設(shè)計(jì)的不同(Savolainen et al. 2013)[動植物重測序]。
體細(xì)胞突變。
高深度測序確定突變類型,進(jìn)而GWAS分析,功能分析每個位點(diǎn)的貢獻(xiàn)率。結(jié)合轉(zhuǎn)錄組進(jìn)行表達(dá)差異功能影響。
3.1 ****重測序GWAS定位功能基因(QTL定位(包含GWAS,表型))
2017年Visscher等在《The American Journal of HumanGenetics》雜志以“10 Years of GWAS Discovery:Biology, Function, and Translation”為題回顧了近10年全基因組關(guān)聯(lián)分析(GWAS)的成果,并對GWAS下個十年的發(fā)展及應(yīng)用方向進(jìn)行了展望。文章指出,GWAS的結(jié)果已經(jīng)揭示了數(shù)百個復(fù)雜的疾病性狀,大多數(shù)關(guān)于性狀和疾病的研究中,基因組中的突變目標(biāo)會顯得很大。因此,未來的GWAS將以全基因組測序?yàn)榛A(chǔ)(Visscher et al. 2017)。
日本科研人員Yano等通過對176個日本粳稻品種的全基因組重測序,并利用混合線性模型進(jìn)行GWAS關(guān)聯(lián)分析,鑒定到了與抽穗期相關(guān)的26個位點(diǎn)(?log10 P ≥4.77),檢測到受關(guān)注的5個區(qū)域分別位于染色體1、3、6、7、11,其中,位于染色體3和7的峰點(diǎn)與已報道的抽穗期相關(guān)基因Hd6和Hd2的QTL定位結(jié)果一致。位于1號染色體的候選區(qū)域被錨定在36.30Mb到36.65Mb之間(346Kb),包括91個與抽穗期關(guān)聯(lián)的位點(diǎn),這些位點(diǎn)分布于7個基因上,其中基因LOC_Os01g62780與擬南芥的HESO1基因同源,該基因在擬南芥中表現(xiàn)為延遲開花,分析發(fā)現(xiàn)主要是328位的纈氨酸突變?yōu)楫惲涟彼嵝纬闪藘煞N單倍型,含有單倍型B的品種抽穗時間遲于單倍型A的品種。分別將單倍型A和單倍型B的基因序列導(dǎo)入日本晴,導(dǎo)入單倍型B序列的日本晴開花時間遲于導(dǎo)入單倍型A序列的日本晴和對照組,說明水稻中的新基因LOC_Os01g62780與延遲開花相關(guān)(Yano et al. 2016)。
3.2 群體重測序進(jìn)行適應(yīng)性進(jìn)化與功能基因定位(群體遺傳(選擇壓力分析))
要觀測到基因受本地化適應(yīng)的痕跡,關(guān)鍵的因素是實(shí)驗(yàn)設(shè)計(jì),尤其是群體的選擇。其中1個很關(guān)鍵的因素就是:不同群體間是否存在遷徙,因?yàn)楸镜鼗m應(yīng)往往與某種程度的群體隔離相關(guān)(無論是人為還是自然導(dǎo)致的隔離)。其中地理隔絕導(dǎo)致的亞群分化是比較容易理解的,例如一座高山擋住兩個亞群相互遷徙的可能。
那么,在非地理隔絕的群體如何產(chǎn)生亞群呢?在這樣的群體中,本地化適應(yīng)是選擇和遷徙平衡的結(jié)果。這里不得不提到1個概念:antagonistic pleiotropy,好像翻譯為“拮抗性基因多效性”比較合理。這個概念實(shí)際上說的是,很多情況下,適應(yīng)是有代價的:即以損失在其他環(huán)境下的適應(yīng)性為代價,獲得更強(qiáng)的本地適應(yīng)能力。如下圖,假設(shè)N是南方種,S是北方種,Y軸是適應(yīng)性,X軸是地點(diǎn)。我們可以看到S在南方具有最高的適應(yīng)性,到了北方卻吃癟了。這個道理其實(shí)非常容易懂,北極熊在北極的冰天雪地是霸主;如果到了針葉林,這一身高貴的白毛,保證耗子都抓不到。
antagonistic pleiotropy的意義在于在某種程度上也降低了種群的遷徙能力(地頭蛇一到外地分分鐘變菜雞),從而強(qiáng)化了本地化適應(yīng)。這也解釋了人類育成的作物、畜禽某種程度上都比較嬌貴,對人類提供的環(huán)境非常依賴,在自然條件下毫無適應(yīng)性。實(shí)際上就是人類育種選擇過程中,追求高產(chǎn)帶來的代價。如果不是antagonistic pleiotropy,某個優(yōu)勢基因型在任何環(huán)境下都非常強(qiáng)勢,其就可能慢慢占領(lǐng)其他的生態(tài)位,導(dǎo)致這個基因座逐漸固定(英文翻譯為fixed,指的是群體中僅僅保留一種基因型,其他基因型被淘汰)而失去了多樣性。
絕大部分我們關(guān)注的性狀(尤其是動植物的生產(chǎn)性狀)都與適應(yīng)選擇有關(guān)。如何定位篩查這些與適應(yīng)性性狀相關(guān)的基因,一直是基因組研究的熱點(diǎn)。
3.3 重測序QTL定位(多用于植物)
該方法選用的研究對象可以是具有極端性狀的一對品種雜交后獲得的近交重組系群體(RILs)或F2代群體,選擇群體中具有兩種不同極端性狀的20-50個個體分別構(gòu)建DNA混池后進(jìn)行重測序,通過對比兩個混池的SNP位點(diǎn)的測序深度相關(guān)的一個參數(shù)(SNP-index)來定位QTL。該方法能用于群體遺傳學(xué)研究,能快速識別人工選育及自然選擇發(fā)生的染色體區(qū)域。
同一性狀上表型相反的兩個品種作為親本,雜交后獲得F2代,再通過單粒傳自交至F7代,獲得近交重組系群體(RILs)。如果群體中此性狀的符合正態(tài)分布,則說明此性狀關(guān)聯(lián)的基因座是數(shù)量性狀的,可以進(jìn)行QTL分析。這里,我們選擇這個群體中此性狀表型最明顯和最不明顯的個體作為研究對象,一般選擇20-50個個體分別混池,產(chǎn)生兩個池,分別為最強(qiáng)表型池和最弱表型池。然后對兩個混池分別進(jìn)行重測序,采用的測序平臺為Illumina Genome Analyzer IIx,測序深度一般要大于6×,這兩個池所代表的的應(yīng)該是某個基因組區(qū)域的兩個等位基因各自所對應(yīng)的表型。由此,我們觀測來自兩個親本的基因組中的不平等表現(xiàn),以此來識別導(dǎo)致兩個池性狀差異的含有QTL的基因組區(qū)域所在。
相對于植物來說,馴養(yǎng)動物繁殖率、遺傳周期等原因,構(gòu)建群體所需時間較長,但可以
3.4 馴化過程與群體歷史動態(tài)(****群體遺傳(選擇壓力分析)****)
通過野生物種與馴化物種的基因組比較研究,可以發(fā)現(xiàn)與馴化相關(guān)的基因和區(qū)域,
中國蘭州大學(xué)劉建全和他的團(tuán)隊(duì),以及英國圣安德魯斯大學(xué)、荷蘭烏得勒支大學(xué)等研究機(jī)構(gòu)的研究人員通過測序并且比較中國26個地區(qū)野牦牛和家養(yǎng)牦牛的全基因組遺傳變異圖譜分析認(rèn)為,人們早在7300年前新石器早期的青藏高原就已馴化了野生牦牛,而馴化數(shù)量則在3600年前增長了約6倍。該項(xiàng)研究還估算出,牦牛種群大量增加和全新世晚期人類群體在此地理區(qū)域的擴(kuò)散是同時發(fā)生的。
研究團(tuán)隊(duì)發(fā)現(xiàn),家養(yǎng)牦牛的基因組中表現(xiàn)出了遺傳選擇的跡象:大約有200個基因受到了人為的馴化選擇,這些選擇可能影響到了動物的行為,尤其是溫順性。而這種馴化基因與狗等其他馴化動物中發(fā)現(xiàn)的基因也十分相似(Qiu et al. 2015)。
3.5 起源、馴化、GWAS、群體進(jìn)化(群體遺傳(選擇壓力分析))
物種的起源、馴化過程的研究將對。。。。
舉例:對歐洲、非洲、東亞南部和北部、中亞、西伯利亞和美洲等地分布的58種犬科動物,包括12只灰狼、27只土犬和19只不同品種的犬進(jìn)行了平均15×測序深度的重測序。
3.6 進(jìn)行體細(xì)胞突變或生殖細(xì)胞突變研究(針對腫瘤、癌癥、多年生植物優(yōu)良表型等)
因此,我們在研究這些突變的起源,突變?nèi)绾问艿紻NA修復(fù)機(jī)制的影響,以及在疾病發(fā)展與進(jìn)化過程中突變的規(guī)律方面需要做深入的分析。自然選擇一般在兩個方面發(fā)揮作用,即保留有利于疾病發(fā)展進(jìn)化的突變的同時限制其在基因組中重要功能區(qū)域發(fā)生突變,例如轉(zhuǎn)錄調(diào)控區(qū)域和編碼蛋白質(zhì)的區(qū)域。因此,(1)如果實(shí)驗(yàn)設(shè)計(jì)是將primary disease與normal control做比較的話,系統(tǒng)的分析可以解析復(fù)雜疾病在形成突變過程中可能的機(jī)制和自然選擇的因素。(2)如果實(shí)驗(yàn)設(shè)計(jì)是基于病灶及其轉(zhuǎn)移位置或者鄰接位置樣本作測序,我們可以構(gòu)建突變進(jìn)化與轉(zhuǎn)移的模型解析突變的動態(tài)模式和基因組中不穩(wěn)定態(tài)變異的模式。
遺傳性腫瘤——胚系突變檢測
尋找靶向藥物,腫瘤負(fù)荷監(jiān)測等——體細(xì)胞突變檢測
通過高通量測序識別發(fā)現(xiàn)de novo的somatic和germ line 突變,結(jié)構(gòu)變異-SNV,包括重排突變(deletioin, duplication 以及copy number variation)以及SNP的座位;針對重排突變和SNP的功能性進(jìn)行綜合分析;我們將分析基因功能(包括miRNA),重組率(Recombination)情況,雜合性缺失(LOH)以及進(jìn)化選擇與mutation之間的關(guān)系;以及這些關(guān)系將怎樣使得在disease(cancer)genome中的mutation產(chǎn)生對應(yīng)的易感機(jī)制和功能。我們將在基因組學(xué)以及比較基因組學(xué),群體遺傳學(xué)綜合層面上深入探索疾病基因組和癌癥基因組。(Erquiaga et al. 2014)
三、參考資料
Bentley D.R. (2006) Whole-genome re-sequencing. Current Opinion in Genetics &Development 16, 545-52.
Casillas S. & Barbadilla A. (2017) Molecular PopulationGenetics. Genetics 205, 1003-35.
Erquiaga I., Hurtado C., Aranaz P., Novo F.J. & VizmanosJ.L. (2014) A simple approach for classifying new mutations as somatic orgerminal in DNA samples lacking paired tissue. Biotechniques 56, 327-9.
Heyer E. & Segurel L. (2010) Looking for signatures ofsex-specific demography and local adaptation on the X chromosome. Genome Biol. 11, 203.
Liu X., Pan J., Zhao Q., He X., Pu Y., Han J., Ma Y. &Jiang L. (2018) Detecting selection signatures on the X chromosome of theChinese Debao pony. J. Anim. Breed.Genet. 135, 84-92.
Lucotte E., Laurent R., Heyer E., Ségurel L. & ToupanceB. (2016) Detection of Allelic Frequency Differences between the Sexes inHumans: A Signature of Sexually Antagonistic Selection. Genome Biol Evol 8,1489-500.
Mcvicker G., Gordon D., Davis C. & Green P. (2009)Widespread Genomic Signatures of Natural Selection in Hominid Evolution. Plos Genetics 5, e1000471.
Qiu Q., Wang L., Wang K., Yang Y., Ma T., Wang Z., Zhang X.,Ni Z., Hou F. & Long R. (2015) Yak whole-genome resequencing revealsdomestication signatures and prehistoric population expansions. Nature Communications 6, 10283.
Savolainen O., Lascoux M. & Meril? J. (2013) Ecologicalgenomics of local adaptation. NatureReviews Genetics 14, 807.
Visscher P.M., Wray N.R., Zhang Q., Sklar P., Mccarthy M.I.,Brown M.A. & Yang J. (2017) 10 Years of GWAS Discovery: Biology, Function,and Translation. American Journal ofHuman Genetics 101, 5.
Yano K., Yamamoto E., Aya K., Takeuchi H., Lo P., Li H.,Yamasaki M., Yoshida S., Kitano H. & Hirano K. (2016) Genome-wideassociation study using whole-genome sequencing rapidly identifies new genesinfluencing agronomic traits in rice. NatureGenetics 48, 927.
Zhu C., Fan H., Yuan Z., Hu S., Zhang L., Wei C., Zhang Q.,Zhao F. & Du L. (2015) Detection of Selection Signatures on the XChromosome in Three Sheep Breeds. Int JMol Sci 16, 20360-74.
李寧 (2011) 動物遺傳學(xué). 中國農(nóng)業(yè)出版社.
劉雪雪, 阿地力江·卡德爾, 董坤哲, 王月月, 潘建飛, 浦亞斌, 何曉紅, 馬月輝 & 蔣琳 (2015) 德保矮馬X染色體選擇信號篩選. 畜牧獸醫(yī)學(xué)報 46, 2161-8.
馬云龍 (2015) 畜禽基因組選擇信號檢測策略與應(yīng)用研究. 中國農(nóng)業(yè)大學(xué).
馬云龍, 張勤 & 丁向東 (2012) 利用高密度SNP 檢測不同豬品種間X 染色體選擇信號. 遺傳 34, 1251-60.
吳常信 (2015) 動物遺傳學(xué). 高等教育出版社.
吳仲賢編 (1961) 動物遺傳學(xué). 南粵出版社.
張沅 (2001) 家畜育種學(xué). 中國農(nóng)業(yè)出版社.
章亮 & 蘇志煕 (2016) 位點(diǎn)致病性預(yù)測軟件對錯義突變的預(yù)測效用評估. 基因組學(xué)與應(yīng)用生物學(xué) 35, 1916-25.