前言
眾所周知,一般GWAS分析中SNPs都是上幾十萬個的,
但是樣本頂多也就幾千個嘛(1980個新冠患者GWAS還發(fā)了NEJM),
亞組分析可以少到幾百個,
但是如果用普通的--recode --tab,那么有十幾萬列的數(shù)據(jù)Excel是不可能完全打開的。
怎么辦?
一些基本常識:
Excel2003版最大行數(shù)是65536行,最大列數(shù)是256列。
Excel2007開始的版本最大行數(shù)是1048576行,2007以上版本是16384列。
所以,所謂的大數(shù)據(jù)在Excel是“無法分析”的。
遇到這個時候,我們就要靈活變通一下了:轉(zhuǎn)置數(shù)據(jù)的重要性。
彎路:
當數(shù)據(jù)分析做多了,我們就會天真地以為用R,用Terminal 的Perl語法轉(zhuǎn)置數(shù)據(jù)之后輸出。
像極了愛情,我們用盡華麗的方法取悅對方,到最后樸實無華的長期陪伴才是我們所忘記的~
其實Plink里面就有了轉(zhuǎn)置(--recode transpose?)這個玩意:
當我們使用一下代碼時:
plink --noweb --extract SNP15000.txt? --bfile male001QC --out male_snps_15000 --recode --tab
數(shù)據(jù)是長這樣的:

怎么辦?--recode transpose了解一下:
plink --noweb --bfile male001QC --recode transpose --out 123 --tab
這個時候就會顯示如下:

然后,文件夾中就會出現(xiàn)以.tfam和.tped結(jié)尾的文件,上面的圖是.tped結(jié)尾的文件,要對應(yīng)樣本,就要看.tfam結(jié)尾的文件。新建一行,復(fù)制,轉(zhuǎn)置黏貼成為表頭不用截圖了吧?
后記:
我們一追再追,只想追趕生信裡的一分一秒,
原來多麼可笑,解決問題的真正目標就在Plink里面。
有了這個數(shù)據(jù),就可以做各種基于基因型的騷操作分析啦~
歡迎關(guān)注微博:醫(yī)學小蛋散,如果有用的話,記得關(guān)注點贊哦~
文中提到的NEJM:Severe Covid-19 GWAS Group, Ellinghaus D, Degenhardt F, et al. Genomewide Association Study of Severe Covid-19 with Respiratory Failure.?N Engl J Med. 2020;383(16):1522-1534. doi:10.1056/NEJMoa2020283
當然了,這是新冠,普通疾病的樣本數(shù)可以去到幾萬,乃至幾十萬了,如(“Association analysis identifies 65 new breast cancer risk loci”共137,045例 的這種情況(超過了16384列),就要考慮和比爾蓋茨聊一下新版本的Excel了~