前言
我們知道GWAS描述的是snp與表型之間的關(guān)系,即利用線性模型尋找與某種性狀顯著相關(guān)聯(lián)的位點(diǎn)。但是發(fā)揮生物學(xué)功能的往往是蛋白質(zhì),蛋白質(zhì)是由轉(zhuǎn)錄本翻譯而來(lái),那么建立基因表達(dá)量與表型的關(guān)聯(lián)將會(huì)使得分析更進(jìn)一步

這張圖講述了GWAS與轉(zhuǎn)錄組數(shù)據(jù)整合分析的流程
基于snp和轉(zhuǎn)錄組數(shù)據(jù)(PrediXcan)
可參考文章A gene-based association method for mapping traits using reference transcriptome data
首先我們先從原理上介紹下這款軟件的工作流程
第一步
我們對(duì)測(cè)序數(shù)據(jù) call 出來(lái)snp以后會(huì)得到一張表格:

其中 id 代表每一個(gè)個(gè)體sample,rs 代表基因組上被call出來(lái)的snp(每一列的 rs 代表同一位置的snp),用連續(xù)型變量表示(假設(shè)二倍體參考基因組上某位點(diǎn)為 C/C,那么C/C = 0,C/T = 1,T/T = 2,這樣轉(zhuǎn)換的目的是將因子型變量(不同的基因型)轉(zhuǎn)換成數(shù)值型(連續(xù)型)變量,方便利用線性模型建模);基于上表的結(jié)果,每個(gè)snp都有三種基因型(用0,1,2表示),而每個(gè)snp的每一種基因型又對(duì)應(yīng)著不同的表型值,因此我們就可以建??匆幌旅恳粋€(gè)snp不同的基因型會(huì)對(duì)表型值有什么樣的影響
顯然 C 突變?yōu)?T (C/T為雜合突變,T/T為純和突變)會(huì)促使表型值上升,與表型值成正相關(guān)
那么,判斷突變與表型值呈正相關(guān)還是負(fù)相關(guān),我們可以設(shè)置一個(gè)對(duì)照(比方說(shuō)設(shè)置純和未突變的為對(duì)照)看看突變是否會(huì)引起表型值的上升
并且測(cè)序數(shù)據(jù) call 出來(lái)的snp信息可以和表型值相關(guān)聯(lián)

而我們RNA-seq的表格為:

其中 id 代表每一個(gè)個(gè)體sample,Tissue 代表不同的組織,每一個(gè) Tissue 對(duì)于一張表達(dá)矩陣,g 代表每一個(gè)基因
第二步(可選,若用戶沒(méi)用基因表達(dá)矩陣執(zhí)行此步驟)
利用snp數(shù)據(jù)和轉(zhuǎn)錄組各個(gè)基因表達(dá)量的數(shù)據(jù),建立它們之間的線性的權(quán)重關(guān)系

建立關(guān)系公式如下:

其中,wk,g 代表第 k 個(gè)snp與第 g 個(gè)基因表達(dá)量之間的權(quán)重(權(quán)重 wk,g 是作者利用機(jī)器學(xué)習(xí)的思想,利用GTEx Project, GEUVADIS 和 DGN數(shù)據(jù)庫(kù)中基因型數(shù)據(jù)和基因表達(dá)數(shù)據(jù)做訓(xùn)練集,即利用已知的基因表達(dá)量 Tg 和 snp 的基因型數(shù)據(jù) Xk 通過(guò) LASSO 和 elastic net 來(lái)計(jì)算權(quán)重 wk,g);Tg 代表第 g 個(gè)基因的表達(dá)量;Xk 代表第 k 個(gè)snp的基因型(因子型變量轉(zhuǎn)換為[數(shù)值型變量] 0,1,2)
因此如果你沒(méi)有現(xiàn)成的轉(zhuǎn)錄組數(shù)據(jù),你可以利用作者已開(kāi)發(fā)好的模型(利用機(jī)器學(xué)習(xí)的方法開(kāi)發(fā)了部分模型)。作者已經(jīng)利用已發(fā)的數(shù)據(jù)做了模型訓(xùn)練了,如果你有對(duì)應(yīng)組織的snp數(shù)據(jù),可以到PredictDB下載對(duì)應(yīng)的模型,用于預(yù)測(cè)基因的表達(dá)量信息。
第三步
關(guān)于權(quán)重 wk,g 的計(jì)算可以利用LASSO和 elastic net 來(lái)計(jì)算,由此可知,對(duì)于某一個(gè) Tissue 來(lái)說(shuō),第 g 個(gè)基因的表達(dá)量可以用snp來(lái)線性表示,那么結(jié)合trait的值(我們?cè)谶@里稱為trait的表達(dá)量),再次擬合一個(gè)線性模型:
其中 Tg 第 g 個(gè)基因的表達(dá)量;γ 代表回歸系數(shù);Y 代表表型值(表型表達(dá)量));Yn = γ1×T1,n+ γ2×T2,n + ... + γm×Tm,n,n代表第n個(gè)id,m代表m個(gè)基因
這樣就可以將基因表達(dá)量與表型值聯(lián)系起來(lái)了,其本質(zhì)就是基因表達(dá)量和表型直接的關(guān)系
對(duì)于該模型,我們可以這樣理解,對(duì)于每一個(gè)基因 g 來(lái)說(shuō),在各個(gè)sample(id)中的表達(dá)量不同,而每一個(gè)sample(id)的表型值也不同,因此可以建立基因 g 在不同sample(id)中的表達(dá)量與在sample(id)的表型值之間的線性關(guān)系(如上圖)
其中,每個(gè)點(diǎn)對(duì)應(yīng)不同的sample(id);每個(gè)點(diǎn)對(duì)應(yīng)的橫坐標(biāo)為基因 g 在不同sample中的表達(dá)量;每個(gè)點(diǎn)對(duì)應(yīng)的縱坐標(biāo)為不同sample對(duì)應(yīng)的表型值
該表代表基因與表型的關(guān)系,那么回歸系數(shù) γ 的為正,那么代表基因表達(dá)量越高,則對(duì)性狀的影響成正相關(guān);反之為負(fù),則代表基因表達(dá)量越高,則對(duì)性狀的影響成負(fù)相關(guān),后面的pval為回歸系數(shù)的顯著性
注: PrediXcan的使用
運(yùn)行PrediXcan需要輸入三個(gè)文件:轉(zhuǎn)錄組表達(dá)矩陣,基因型文件和樣本信息文件:
- 基因型文件:該文件每一行表示一個(gè)SNP,包含的信息分別為:chromosome rsid position allele1 allele2 MAF,后面的每一列的內(nèi)容是每一個(gè)樣本在該SNP allele2的dosage,最好是每一條染色體分開(kāi)制作文件。
- 樣本信息文件:直接將PLINK的fam文件導(dǎo)入即可。
- 基因表達(dá)矩陣
可選,利用已有的模型預(yù)測(cè)一個(gè)基因表達(dá)矩陣
./PrediXcan.py
--predict
--dosages genotype/
--dosages_prefix chr
--samples samples.txt
--weights model/DGN-HapMap-2015/DGN-WB_0.5.db # 已存在的模型
--output_prefix results/DGN-HapMap
建立基因表達(dá)與表型的關(guān)系
./PrediXcan.py
--assoc
--pheno My_pheno.txt
--mpheno 1
--pred_exp results/TW_Brain_Frontal_predicted_expression.txt #預(yù)測(cè)的基因表達(dá)矩陣,作者也可自行提供
--logistic
--output_prefix results/DGN-HapMap
基于GWAS-summary數(shù)據(jù)(Summary-PrediXcan)
這種方法不依賴于call出來(lái)的snp和轉(zhuǎn)錄組數(shù)據(jù),而是直接利用GWAS-summary數(shù)據(jù)來(lái)建立基因表達(dá)與表型值之間的關(guān)系
我們知道,GWAS-summary描述的是不同的snp(基因型)和表型值之間的關(guān)系

那么模型基于已經(jīng)訓(xùn)練好的snp與基因 g 表達(dá)量之間的權(quán)重關(guān)系,推測(cè)該權(quán)重關(guān)系是基于PredictDB訓(xùn)練好的權(quán)重進(jìn)行計(jì)算的
其中,wIg 代表第 I 個(gè)snp對(duì)gene g表達(dá)量產(chǎn)生影響的權(quán)重(該權(quán)重即snp I 是否突變對(duì)gene g表達(dá)量產(chǎn)生變化的回歸系數(shù));βl 代表第 l 個(gè)snp 對(duì)表型值的影響的回歸系數(shù)(也稱為效應(yīng)值);se(βl) 代表所有回歸系數(shù)(效應(yīng)值)的標(biāo)準(zhǔn)誤;σl 代表所有回歸系數(shù)(效應(yīng)值)的標(biāo)準(zhǔn)差;σg 代表基因 g 在各個(gè)樣本中表達(dá)量的標(biāo)準(zhǔn)差;Zg 即為基因 g 對(duì)表型值的回歸系數(shù)(效應(yīng)值)
其中,wIg 是已經(jīng)訓(xùn)練好的snp與基因 g 表達(dá)量之間的權(quán)重

因此 Zg 為基因 g 表達(dá)量和表型值之間線性模型的回歸系數(shù),越大說(shuō)明對(duì)表型的正向影響越大;反之越小代表對(duì)表型的負(fù)向影響越大




