最近在看遺傳數(shù)據(jù)與表達(dá)結(jié)合的東西,介紹一個經(jīng)典的方法吧,fusion。
Gusev et al. “Integrative approaches for large-scale transcriptome-wide association studies” 2016 Nature Genetics
主要思想:
許多基因變異通過調(diào)節(jié)基因表達(dá)影響復(fù)雜的性狀,從而改變一個或多個蛋白質(zhì)的表達(dá)水平。此方法就是在沒有直接測量表達(dá)水平的個體中,來找出其表達(dá)與復(fù)雜性狀顯著相關(guān)的基因。
我們利用相對較小的一組參考個體,對其基因表達(dá)和SNPs進(jìn)行了相關(guān)分析,從而從SNP基因型數(shù)據(jù)將表達(dá)的順式遺傳成分插補(bǔ)到更大的一組表現(xiàn)型個體中。然后,我們將輸入的基因表達(dá)與性狀相關(guān)聯(lián),進(jìn)行全轉(zhuǎn)錄組關(guān)聯(lián)研究(TWAS),并確定顯著的表達(dá)-性狀關(guān)聯(lián)。用GWAS的summary數(shù)據(jù)。

- Tutorial here.
————————————————————————————
大概了解了主要思想后,我們就開始吧。
下載軟件、解壓:
wget https://github.com/gusevlab/fusion_twas/archive/master.zip
unzip master.zip
cd fusion_twas-master
下載1000 Genomes數(shù)據(jù),是每條染色體分開的:
wget https://data.broadinstitute.org/alkesgroup/FUSION/LDREF.tar.bz2
tar xjvf LDREF.tar.bz2
下載工具,plink2R library
wget https://github.com/gabraham/plink2R/archive/master.zip
unzip master.zip
進(jìn)入R,安裝需要的包。
R
install.packages('optparse','RColorBrewer')
install.packages('plink2R-master/plink2R/',repos=NULL)
*tips:如果安裝報(bào)錯,就一個一個安,提示缺哪個包就安哪個。
如果用自己的數(shù)據(jù)計(jì)算weight,需要GCTA、plink2這些基礎(chǔ)軟件,還需要安裝以下R包:
install.packages(c('glmnet','methods'))
*tips:如果在裝methods報(bào)錯,類似is a base package這個,說明這個包是基礎(chǔ)包,library一下存在就可以啦。
——————————————————————————————
此示例為典型的TWAS分析,根據(jù)預(yù)先計(jì)算好的基因表達(dá)權(quán)重和疾病GWAS summary數(shù)據(jù)來估計(jì)每個基因與疾病的關(guān)系。
將使用PGC精神分裂癥的gwas summary數(shù)據(jù)對GTEx全血數(shù)據(jù)進(jìn)行TWAS。
wget https://data.broadinstitute.org/alkesgroup/FUSION/SUM/PGC2.SCZ.sumstats
mkdir WEIGHTS
cd WEIGHTS
wget https://data.broadinstitute.org/alkesgroup/FUSION/WGT/GTEx.Whole_Blood.tar.bz2
tar xjf GTEx.Whole_Blood.tar.bz2
輸入文件一:GWAS summary statistics
格式:與計(jì)算LD score時格式相同??崭穹指?,snp、A1、A2、z是必須的。示例文件長這樣。snp必須是rs號,不是的自己轉(zhuǎn)一下,因?yàn)楹竺嬉?000G匹配。

可以用LDSC munge_stats.py把gwas的格式轉(zhuǎn)為我們需要的。
gwas結(jié)果全部輸入進(jìn)去,不要卡閾值。
輸入文件二:Expression weights
就是我們之前下載的文件
./WEIGHTS/GTEx.Whole_Blood.pos
運(yùn)行腳本
Rscript FUSION.assoc_test.R \
--sumstats PGC2.SCZ.sumstats \
--weights ./WEIGHTS/GTEx.Whole_Blood.pos \
--weights_dir ./WEIGHTS/ \
--ref_ld_chr ./LDREF/1000G.EUR. \
--chr 22 \
--out PGC2.SCZ.22.dat
結(jié)果
生成文件

后面的截不下了??纯聪旅娓鱾€表頭的介紹吧。

好啦,最基本的fusion過程就完成啦~要根據(jù)自己的需要進(jìn)一步分析的自己看manual吧!加油!
有時候看看博士畢業(yè)論文還是不錯的。找到了這個有助于理解。
http://kreader.cnki.net/Kreader/CatalogViewPage.aspx?dbCode=cdmd&filename=1018176119.nh&tablename=CMFD201802&compose=&first=1&uid=WEEvREcwSlJHSldRa1FhdkJkVG1BdWs2aTA3Y2tBanlsR3VSUHZqNE8rRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!!


截了一小部分,有助于理解。