eQTL

歸納幾篇eQTL相關(guān)文章。

1.轉(zhuǎn)自https://www.cnblogs.com/Acceptyly/p/3904108.html

首先QTL是數(shù)量性狀位點(diǎn),比如身高是一個數(shù)量性狀,其對應(yīng)的控制基因的位點(diǎn)就是一個數(shù)量性狀位點(diǎn),而eQTL就是控制數(shù)量性狀表達(dá)位點(diǎn),即能控制數(shù)量性狀基因(如身高基因)表達(dá)水平高低的那些基因的位點(diǎn)。

數(shù)量性狀基因座:控制數(shù)量性狀的基因在基因組中的位置稱數(shù)量性狀基因座。常利用DNA分子標(biāo)記技術(shù)對這些區(qū)域進(jìn)行定位,與連續(xù)變化的數(shù)量性狀表型有密切關(guān)系

表達(dá)數(shù)量性狀基因座(expression Quantitative Trait Loci,eQTL)是對上述概念的進(jìn)一步深化,它指的是染色體上一些能特定調(diào)控mRNA和蛋白質(zhì)表達(dá)水平的區(qū)域,其mRNA/蛋白質(zhì)的表達(dá)水平量與數(shù)量性狀成比例關(guān)系。eQTL可分為順式作用eQTL和反式作用eQTL,順式作用eQTL就是某個基因的eQTL定位到該基因所在的基因組區(qū)域,表明可能是該基因本身的差別引起的mRNA水平變化;反式作用eQTL是指某個基因的eQTL定位到其他基因組區(qū)域,表明其他基因的差別控制該基因mRNA水平的差異。

eQTL就是把基因表達(dá)作為一種性狀,研究遺傳突變與基因表達(dá)的相關(guān)性: 就好像研究遺傳突變與身高的相關(guān)性一樣

早年可以通過同時(shí)做一個個體的SNP芯片和cDNA芯片, 在全基因組尺度研究突變與表達(dá)的相關(guān)性, 這種研究需要較多個體(例如1000個); 現(xiàn)在隨著深度測序的出現(xiàn),很多人開始用RNA-Seq在較少量個體中研究allele-specific expression,本質(zhì)上就是eQTL.

簡單地說, 遺傳學(xué)研究經(jīng)常發(fā)現(xiàn)一些致病或易感突變, 這些突變怎樣導(dǎo)致表型有時(shí)候不太直觀; 所以用某個基因的差異表達(dá)作為過渡: 突變A-->B基因表達(dá)變化-->表型;


GTEx的前世今生

轉(zhuǎn)自https://baijiahao.baidu.com/sid=1582163111276275189&wfr=spider&for=pc

然而,事情卻沒有那么簡單,從基因的改變到疾病等現(xiàn)象的出現(xiàn),中間缺失了重要的一環(huán),那就是基因的表達(dá)。也許在測序中,我們可以看到某一個基因上某一個位置的變化(比如說SNP單核苷酸變化),但是這種變化并不一定會影響mRNA的產(chǎn)生或者蛋白的改變。也就有可能不會影響到疾病或其他生物學(xué)過程。于是科學(xué)家想到了另一個指標(biāo)——mRNA的序列數(shù)據(jù)。因?yàn)橹挥斜槐磙D(zhuǎn)譯到mRNA上的基因,才可能進(jìn)一步表達(dá)為蛋白(圖1)。

圖1:eQTL是溝通基因改變與疾病的橋梁

但是要怎么搞清DNA改變是怎么影響mRNA的出現(xiàn)呢?這一過程被稱為Expression quantitative trait loci(eQTL) 分析,目的在于得到單個DNA突變與單個基因表達(dá)量之間的相關(guān)性。與單個基因mRNA表達(dá)量相關(guān)的DNA突變,就被稱為eQTL。

簡單來講,(并不簡單,小編注)我們首先通過全基因組測序獲得每個個體的DNA全序,然后以同種族的其他個體作為參照,標(biāo)記出該個體所有的DNA變異位點(diǎn), 稱為SNP位點(diǎn)。同時(shí),我們通過全基因組mRNA表達(dá)量測序得到該個體的特定組織樣本中的基因表達(dá)量。以全部DNA變異位點(diǎn)為自變量,輪流以每種mRNA表達(dá)量為因變量,用大量的個體數(shù)據(jù)做樣本進(jìn)行線性回歸,就可以得到每一個SNP位點(diǎn)和每一個mRNA表達(dá)量之間的關(guān)系。

GTEx是第一個收集了多個人體器官mRNA測序的數(shù)據(jù)庫,并提供了跨器官的eQTL研究平臺。

當(dāng)前使用的GTEx v6p版本的原始數(shù)據(jù)來自于449名生前健康的遺體捐獻(xiàn)者的44個不同的器官。圖2是不同器官里面樣本數(shù)的直觀展示。由這個圖可以看出,這一數(shù)據(jù)庫中涉及的數(shù)據(jù)覆蓋面非常廣,數(shù)據(jù)量大,具有重要的應(yīng)用潛力。

圖2:GTEx 樣品取材來源圖示。灰色字體為 cis-eQTL 數(shù)/trans-eQTL數(shù) (樣本

3.GTEx如何一天發(fā)四篇Nature

GTEx 為挖掘器官特異的基因組數(shù)據(jù)提供了一個非常好的平臺。這是目前唯一一個可以提供這些內(nèi)容的數(shù)據(jù)庫工具。有了這些,科學(xué)家就可以嘗試回答很多問題:比如基因相互作用的網(wǎng)絡(luò)在不同器官里會有怎么樣不同的表現(xiàn)?不同組織中基因突變對于基因表達(dá)有哪些影響?特定染色體在不同的器官中作用有哪些?等等。也就有了其他的三篇文章。

這充分展現(xiàn)了該平臺的強(qiáng)大威力!

4.核心作者專訪

生息提問1:我們知道,對于大數(shù)據(jù)的分析而言,數(shù)據(jù)的質(zhì)量控制與分析是非常重要的,能否詳細(xì)的介紹一下你們的數(shù)據(jù)質(zhì)量控制與分析過程和原理?

答:有很多文章提出,在不同的測序環(huán)境下得到的不同樣本的數(shù)據(jù)存在batch effect。已知的batch effect包括測序的批次,樣本的性別、年齡、祖先,以及gene的GC content等。這些因素可能同時(shí)對SNP genotype 以及gene mRNA 表達(dá)量造成影響,也就是confounder。我們不希望得到的eQTL是由于祖先的不同,或者由于性別差異,所以這些因素都被作為confounder從mRNA 表達(dá)量中通過線性回歸去除。然而我們還是無法得知所有batch effect,由于我們的目的是尋找對單個基因有影響的突變,一個簡單的想法是去除對mRNA 表達(dá)有廣泛影響的因素, 也就是回歸去除主成分。PEER就是一個可以直接用mRNA數(shù)據(jù)估計(jì)廣泛因子并去除的工具。這個步驟看似簡單,其實(shí)是整個分析過程中至關(guān)重要的一步,因?yàn)檫@個步驟直接決定了mRNA校正后的表達(dá)量。

得到校正后的數(shù)據(jù)之后,就可以對所有基因的mRNA表達(dá)量和全基因組測序得到的SNP genotype進(jìn)行線性回歸,即eQTL 分析。在基因組數(shù)據(jù)分析中,存在一個普遍的問題,就是基因/DNA變異的數(shù)量是樣本數(shù)量的幾百甚至幾萬倍,而同時(shí)進(jìn)行的回歸分析的次數(shù)就更是遠(yuǎn)超樣本數(shù)量,很容易出現(xiàn)假陽性結(jié)果,因此我們需要對系數(shù)的p值做Bonferroni校正或者BH校正來消除多重檢驗(yàn)的影響。

根據(jù)SNP位點(diǎn)(即單個DNA突變的位點(diǎn))到gene的距離,eQTL 可以分為兩類:cis-eQTL 和 trans-eQTL。cis-eQTL是指近距離相關(guān)的eQTL, trans-eQTL則是包括了遠(yuǎn)距離相關(guān)的eQTL。這兩類eQTL對應(yīng) cis-regulation以及 trans-regulation。由于trans-eQTL的計(jì)算涉及到更大量的多重檢驗(yàn),因此我們采取了更嚴(yán)格的數(shù)據(jù)質(zhì)量控制。

生息提問2:GTEx 數(shù)據(jù)是如何被用于器官特異性分析的?

答:數(shù)據(jù)收集完成后,考慮到不同器官樣本里面存在重復(fù)的個體,研究人員做了meta-analysis來去除重復(fù)個體的影響,在此基礎(chǔ)上進(jìn)行了聚類分析。原文中的圖2展示了用cis-eQTL 和 trans-eQTL做聚類分析的結(jié)果??梢郧宄乜吹剑嘟钠鞴僭诰垲惤Y(jié)果中更接近。同時(shí),cis-eQTL 比 trans-eQTL提供了更明顯的分類。

一個很自然的問題就是:在不同器官里的 eQTL 有什么不同的性質(zhì)?是什么因素導(dǎo)致一部分eQTL只存在于某些器官,而另一些則在大多數(shù)器官中存在?研究人員標(biāo)記了SNP所在區(qū)域的生物學(xué)功能(promoter/enhancer/cis regulatory region),并比較了相對應(yīng)器官的富集性以及不對應(yīng)器官的富集性,論文中圖3a,3b展示了cis-eQTL 在對應(yīng)器官里更有可能在CRE中富集,圖3e 則更為直接地表現(xiàn)了不同功能性序列的eQTL 相關(guān)性強(qiáng)度。

生息提問3:從找到DNA變異與mRNA表達(dá)的關(guān)聯(lián),到真正理解產(chǎn)生這些關(guān)聯(lián)的背后機(jī)制,這中間還有多遠(yuǎn)?

答:eQTL 分析是單個SNP和單個基因表達(dá)的相關(guān)性分析,和GWAS相似,得到的結(jié)果可以為機(jī)制研究提供思路和方向。假設(shè)我們對某個基因感興趣,想知道是什么DNA序列調(diào)控了這個基因的表達(dá),我們可以去eQTL的list中搜索和這個基因有顯著相關(guān)性的DNA序列。但是這些序列并不是直接導(dǎo)致基因表達(dá)變化的,主要由于兩個原因:1. 染色體上靠的比較近的序列一般會同時(shí)被一代一代傳下去,因此這塊區(qū)域里的SNP都有固定的排列,這塊區(qū)域被稱為LD block。在一個LD block里面,驗(yàn)測出相關(guān)性的SNP可能與真正有因果性的SNP有很強(qiáng)的相關(guān)性,但是由于多重檢驗(yàn),真正有因果性的SNP可能并沒有得到顯著結(jié)果。2. 存在相關(guān)性并不等于直接相關(guān),由于eQTL分析是單個基因只對單個SNP做線性回歸,并沒有控制其他SNP的序列,也就是說,可能這個相關(guān)性來自于另一個和基因以及這個SNP都相關(guān)的SNP。

這時(shí)候就需要其他的額外信息來幫助我們判斷,哪些SNP更可能是有因果性的那個。有許多研究致力于結(jié)合其他的基因組信息,使用監(jiān)督性學(xué)習(xí)或無監(jiān)督學(xué)習(xí),從存在相關(guān)性的一組SNP里面來識別真正有因果性的那個。當(dāng)然,最后的因果性確認(rèn)還需要嚴(yán)謹(jǐn)?shù)纳飳?shí)驗(yàn)來證明。


2.https://mp.weixin.qq.com/s/X6oiHtKBMBPFqncgL3Enxw

本篇給出了eQTL概況,以及三個關(guān)于eQTL的數(shù)據(jù)庫,分別為Braineac,GTEx,Blood eQTL Browser



Braineac(The Brain eQTLAlmanac)由UK Brain Expression Consortium創(chuàng)建,他們采集134名歐洲捐獻(xiàn)者的多個腦區(qū)的基因型與基因表達(dá)量,進(jìn)行eQTL分析,建立該數(shù)據(jù)庫。

http://www.braineac.org/

GTEx(The Genotype TissueExpression Project)到目前為止共收集了544名捐獻(xiàn)者全身各個組織的基因型與基因的表達(dá)量,利用GTEx可以研究各個組織中的eQTL。

https://www.gtexportal.org/home/

Blood eQTL Browser收集了來自七個中心的共5311名被試的血液組織中的基因型及基因表達(dá)量,進(jìn)行(eQTL) meta分析,并在另外的四個中心的2775被試中重復(fù)驗(yàn)證,他們的研究與前兩個數(shù)據(jù)庫相比,發(fā)現(xiàn)了大量的trans-eQTL。

http://genenetwork.nl/bloodeqtlbrowser/


3.又找到eQTL利用軟件出結(jié)果的流程的推文,我就是資料整合專家

https://mp.weixin.qq.com/s/FaNhRYSyjLlC1hMnZJkvdA

https://mp.weixin.qq.com/s/83axhA3GgZjw4trmwhMyYw

http://www.itdecent.cn/p/6e6d54d7483e

https://mp.weixin.qq.com/s/X6oiHtKBMBPFqncgL3Enxw

第三個好棒,寫的超全面,也有鏈接到其官網(wǎng)數(shù)據(jù)。


4.可做的各種結(jié)合分析:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容