GWAS分析-說人話(17)- 基因型數(shù)據(jù)我就要用Excel打開!

前言

眾所周知,一般GWAS分析中SNPs都是上幾十萬個的,

但是樣本頂多也就幾千個嘛(1980個新冠患者GWAS還發(fā)了NEJM),

亞組分析可以少到幾百個,

但是如果用普通的--recode --tab,那么有十幾萬列的數(shù)據(jù)Excel是不可能完全打開的。

怎么辦?


一些基本常識:

Excel2003版最大行數(shù)是65536行,最大列數(shù)是256列

Excel2007開始的版本最大行數(shù)是1048576行,2007以上版本是16384列。

所以,所謂的大數(shù)據(jù)在Excel是“無法分析”的。

遇到這個時候,我們就要靈活變通一下了:轉(zhuǎn)置數(shù)據(jù)的重要性。

彎路:

當數(shù)據(jù)分析做多了,我們就會天真地以為用R,用Terminal 的Perl語法轉(zhuǎn)置數(shù)據(jù)之后輸出。

像極了愛情,我們用盡華麗的方法取悅對方,到最后樸實無華的長期陪伴才是我們所忘記的~

其實Plink里面就有了轉(zhuǎn)置(--recode transpose?)這個玩意:

當我們使用一下代碼時:

plink --noweb --extract SNP15000.txt? --bfile male001QC --out male_snps_15000 --recode --tab

數(shù)據(jù)是長這樣的:

每一列都是一個SNP的基因型,然后如果你要做全部的SNP的話,根本不可能打開完全(Excel會提示)。

怎么辦?--recode transpose了解一下:

plink --noweb --bfile male001QC --recode transpose --out 123 --tab

這個時候就會顯示如下:

這個時候數(shù)據(jù)就可以顯示完全了,行變成了SNP的名字,本數(shù)據(jù)集共329256個SNPs,Excel 2007以上都是1048576行了~

然后,文件夾中就會出現(xiàn)以.tfam和.tped結(jié)尾的文件,上面的圖是.tped結(jié)尾的文件,要對應(yīng)樣本,就要看.tfam結(jié)尾的文件。新建一行,復(fù)制,轉(zhuǎn)置黏貼成為表頭不用截圖了吧?

后記:

我們一追再追,只想追趕生信裡的一分一秒,

原來多麼可笑,解決問題的真正目標就在Plink里面。

有了這個數(shù)據(jù),就可以做各種基于基因型的騷操作分析啦~


歡迎關(guān)注微博:醫(yī)學小蛋散,如果有用的話,記得關(guān)注點贊哦~

文中提到的NEJM:Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, et al. Genomewide Association Study of Severe Covid-19 with Respiratory Failure.?N Engl J Med. 2020;383(16):1522-1534. doi:10.1056/NEJMoa2020283

當然了,這是新冠,普通疾病的樣本數(shù)可以去到幾萬,乃至幾十萬了,如(“Association analysis identifies 65 new breast cancer risk loci”共137,045例 的這種情況(超過了16384列),就要考慮和比爾蓋茨聊一下新版本的Excel了~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容