利用EIGENSOFT中的smartpca模塊進(jìn)行PCA分析

這個(gè)工具是很經(jīng)典老牌的工具,是非??煽恳驳玫搅藢W(xué)術(shù)界認(rèn)可的一款軟件。工具官網(wǎng):https://www.hsph.harvard.edu/alkes-price/software/, 也可以通過conda下載比較簡(jiǎn)便。這個(gè)工具的缺點(diǎn)就是它只支持linux系統(tǒng),而且對(duì)輸入文件的格式有一定的要求。最新的版本采用的算法可以更好獲得群體結(jié)構(gòu)信息,具體可參考這篇文章:Fast Principal-Component Analysis Reveals Convergent Evolution of ADH1B in Europe and East Asia. The American Journal of Human Genetics 98, 456–472, March 3, 2016

實(shí) 戰(zhàn)

1?首先使用plink將vcf文件轉(zhuǎn)格式轉(zhuǎn)化成.ped和.map結(jié)尾的文件,利用自己的命令獲得標(biāo)準(zhǔn)ped和map格式文件也可以。本案例采用數(shù)據(jù)是用plink 對(duì)3245份水稻LD pruning過后得到的76萬個(gè)SNP;

2 進(jìn)一步使用EIGENSOFT中內(nèi)置的convertf 文件轉(zhuǎn)化為smartpca的輸入文件:

convertf -p transfer.conf

該步驟需要一個(gè)?transfer.conf,將文件的輸入輸出寫進(jìn)去,然后執(zhí)行command。

##?transfer.conf

genotypename:? ? 3245_pruned_SNP.ped

snpname:? ? ? ? 3245_pruned_SNP.map # or example.map, either works

indivname:? ? ? 3245_pruned_SNP.ped # or example.ped, either works

outputformat:? ? EIGENSTRAT

genotypeoutname: 3245.eigenstratgeno

snpoutname:? ? ? 3245.snp

indivoutname:? ? 3245.ind

familynames:? ? NO

該步驟會(huì)生產(chǎn)生三個(gè)pca所需的輸入文件?3245.eigenstrat, 3245.snp 和3245.ind

3 運(yùn)行smartpca 代碼如下:

smartpca -p runningpca.conf

其參數(shù)文件runningpca.conf內(nèi)容 如下,根據(jù)你的數(shù)據(jù)參照manual來修改對(duì)應(yīng)的參數(shù):

genotypename: 3245.geno

snpname: 3245.snp

indivname: 3245.ind

evecoutname: 3245.pca.evec

evaloutname: 3245.eval

altnormstyle: NO

numoutevec: 20

numoutlieriter: 5

outliersigmathresh: 6.0、

截取了運(yùn)行中的屏幕輸出:

可以看到,smartpca有對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與過濾處理,這里有一些低質(zhì)量的1360個(gè)snp和148份材料被去除,最終生成的文件只有3097份材料的結(jié)果!

運(yùn)行完會(huì)生成兩個(gè)個(gè)文件:

3245.pca.evec(特征向量結(jié)果);3245.eval(特征值結(jié)果)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容