MAGMA軟件實(shí)現(xiàn)gene-based & gene-set-based關(guān)聯(lián)分析

作者:Bio_gevin
審稿:童蒙
編輯:amethyst

隨著全基因組關(guān)聯(lián)分析使用樣本數(shù)量的增加,人們也逐漸認(rèn)識到很多感興趣的性狀在本質(zhì)上是由微效多基因控制。單個SNP的關(guān)聯(lián)分析難以捕獲顯著性的結(jié)果,這種以基因?yàn)閱挝?、以功能通路為單位或者以其他具有生物學(xué)意義的SNP聚集的方式的關(guān)聯(lián)分析應(yīng)運(yùn)而生,這也是對僅以SNP-based關(guān)聯(lián)分析的一種很好的補(bǔ)充。

隨著接觸復(fù)雜疾病相關(guān)研究,經(jīng)常會查詢相關(guān)文獻(xiàn),而MAGMA(Multi-marker Analysis of GenoMic Annotation)在高分文獻(xiàn)中高頻出現(xiàn)。

MAGMA包括三個功能模塊:
①注釋步驟,將SNP map到基因中;
②基于基因關(guān)聯(lián)分析,計算基于基因和性狀的關(guān)聯(lián)顯著性,在這又可以分為兩個部分,一種是基于raw data的gene-based關(guān)聯(lián)分析,另一種是基于SNP pvalue的gene-based關(guān)聯(lián)分析;
③基于基因集的關(guān)聯(lián)分析。

GWAS summary statistics格式介紹

GWAS summary statistics格式在關(guān)聯(lián)分析中經(jīng)常使用,很多軟件基于該種格式數(shù)據(jù)來實(shí)現(xiàn)功能,也會有一些軟件設(shè)置了使用該種格式數(shù)據(jù)的接口,因此有必要簡單介紹一下各列的含義,如下圖:

MAGMA軟件使用

SNP注釋

MAGMA軟件第一步是SNP注釋步驟,輸入的文件是bim文件(plink格式文件)和基因的位置信息。
magma --annotate --snp-loc [SNPLOC_FILE] --gene-loc [GENELOC_FILE] --out [OUTPUT_PREFIX]
①SNP位置信息文件應(yīng)該包含三列,即前三列為SNP ID, chromosome, 和base pair position,如果是plink產(chǎn)出的bim文件就不需要修改了,plink的bim文件格式如下:(染色體,SNP ID,unknown,BP,ref和alt)


②基因的位置信息文件應(yīng)該包含至少四列,即gene ID, chromosome, start site和stop site,第五列可以是正負(fù)鏈信息(僅在用不對稱的基因窗口注釋時才會用到),具體格式如下:

③產(chǎn)出結(jié)果:gene ID,基因位置,SNP ID

基于基因的分析

基于基因的分析可以分為兩個部分:基于原始數(shù)據(jù)的基因分析和基于SNP p-value數(shù)據(jù)的基因分析。

基于原始數(shù)據(jù)的基因分析,輸入的是原始文件bed/.bim/.fam(可直接輸入名字,不用加后綴);上一步輸出的結(jié)果.annot文件。
magma --bfile [DATA] --gene-annot [ANNOT_PREFIX].genes.annot --out [GENE_PREFIX]

基于SNP p-value數(shù)據(jù)的基因分析,--pvalue參數(shù)需要指定SNP pvalue文件。

magma --bfile [DATA] --gene-annot [ANNOT].genes.annot --pval [PVAL_FILE] N=[N] 
magma --bfile [DATA] --gene-annot [ANNOT].genes.annot --pval [PVAL_FILE] ncol=[N_COL]

基于原始數(shù)據(jù)的基因分析
其中DATA必須為plink格式文件,[DATA].bed, [DATA].bim和[DATA].fam files;默認(rèn)是使用PCA回歸基因分析模型。
magma --bfile /GWAS/split_chr/Middle/chr1 --gene-annot gevin.genes.annot --out gevin_gene_based_rawdata
基于SNP p-value數(shù)據(jù)的基因分析
magma --bfile /GWAS/split_chr/Middle/chr1 --gene-annot gevin.genes.annot --pval SNPassocFisher.result use=2,8 N=170 --out gevin_gene_based
參數(shù)分別為:

  • –gene-annot:注釋文件;
  • –pval:GWAS結(jié)果;
  • N:樣本數(shù);
  • use=1,3: 表示GWAS結(jié)果中snpID位于第1列,P值位于第3列;
  • ncol=[N_COL],ncol和N都是用去指定樣本數(shù),N只能統(tǒng)一指定一個值,對于case-control總體的數(shù)目,而對于分析X和Y染色體上的位點(diǎn)時,可能需要兩個樣本值;而對于meta分析時,每個SNP都對應(yīng)著不同的樣本數(shù),因此會用到多個樣本值,ncol就可以指定SNP對應(yīng)樣本數(shù)的列。ncol參數(shù)是被推薦。

注意:
a:MAGMA提供同義SNP(需要依據(jù)dbSNP,一些不同的rs IDs已經(jīng)合并成為一個ID)處理
b:指定gene-based分析的模型,主要有三個:

  • the principal components regression (linreg) model
  • the SNP-wise Mean (snp-wise=mean) model
  • the SNP-wise Top 1 (snp-wise=top) model
    對于Gene analysis on raw genotype data分析應(yīng)用的模型默認(rèn)是linreg,而對于使用--pval參數(shù)的分析,默認(rèn)使用的模型是snp-wise=mean。

產(chǎn)出結(jié)果的解讀

  • GENE:第一步注釋完之后的基因ID;
  • CHR:基因位于的染色體;
  • START/STOP:染色體上基因的注釋邊界;
  • NSNPS:注釋到該基因的SNP數(shù)量;
  • NRARE:被分類為罕見變異的SNP數(shù)量;
  • NPARAM:模型中使用的相關(guān)參數(shù)的個數(shù);
  • N:樣本量;
  • ZSTAT:基因的z值;
  • P:基因的p值;
  • RSQ/RSQ_ADJ:模型的R2和調(diào)整后的R2值。

基于基因集的分析

基因集分析可以更加直觀的展示出基因的哪些功能和生物學(xué)特性是與特定表型相關(guān)的,而基因具有多種特性,這些特性在不同基因中通常是相關(guān)的,容易在基因集關(guān)聯(lián)分析引入混淆,MAGMA在基因集分析中有了很大功能提升。

magma --gene-results [GENE_RESULTS].genes.raw --set-annot [SET_FILE] --out [OUTPUT_PREFIX] 
MAGMA/magma --gene-results gevin_gene_based.genes.raw --set-annot synapse.sets col=1,2 --out gevin_geneset_based

其中:

  • –gene-results:基于基因分析產(chǎn)生的.genes.raw文件;
  • -set-annot [file] col=1,2:基因集文件,第一列g(shù)eneID,第二列基因所屬set(可以是KEGG或者GO條目等基因通路)。
    產(chǎn)出結(jié)果的解讀

    每列分別為:
  • VARIABLE: 基因集名稱;
  • TYPE: 類型;
  • NGENES: 基因集中基因數(shù)目;
  • BETA: 變量回歸系數(shù);
  • BETA_STD: 半標(biāo)準(zhǔn)化回歸系數(shù),對應(yīng)于預(yù)測基因集/基因協(xié)變量中一個標(biāo)準(zhǔn)偏差的變化時預(yù)測 Z 值的變化(即 BETA 除以變量的標(biāo)準(zhǔn)偏差);
  • SE: 回歸系數(shù)的標(biāo)準(zhǔn)誤;
  • P: 基于基因集分析的p-value。

總結(jié)

MAGMA軟件輸入數(shù)據(jù)既可以是原始數(shù)據(jù)也可以是關(guān)聯(lián)分析結(jié)果數(shù)據(jù),既可以進(jìn)行g(shù)ene-based分析挖掘特定表型相關(guān)的基因,也可以進(jìn)行生物通路水平的分析,在充分使用測序數(shù)據(jù)和表型的同時也豐富了我們的分析結(jié)果。

參考文獻(xiàn)

https://ctg.cncr.nl/software/magma

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容