說明
需要樣本分組文件f1和數(shù)據(jù)矩陣文件f2,分隔符都為 \t;f1的第一列為f2的列名,第二列為分組組名(會根據(jù)f1文件做計算,只做f1中有的樣本與分組,支持無重復樣本的分組)
f1示例

f2示例

腳本
awk 'BEGIN{FS=OFS="\t"}NR==FNR{a[$1]=$2;gnum[$2]=strtonum(gnum[$2])+1;guni[$2]}NR>FNR&&FNR==1{for(i=2;i<NF+1;i++){g[i]=a[$i]};printf $0;for(k in guni){printf "\tsum_"k};for(k in guni){printf "\tmean_"k};print ""}NR>FNR&&FNR>1{for(k in guni){s[k]=0};for(i=2;i<NF+1;i++){s[g[i]]=strtonum(s[g[i]])+$i};printf $0;for(k in guni){printf "\t"s[k]};for(k in guni){printf "\t"s[k]/gnum[k]}print ""}' pheno.file matrix.02
轉換后的腳本:
awk 'BEGIN{
FS=OFS="\t"
}NR==FNR{
a[$1]=$2
gnum[$2]=strtonum(gnum[$2])+1
guni[$2]
}NR>FNR&&FNR==1{
for(i=2;i<NF+1;i++){
g[i]=a[$i]
}
printf $0
for(k in guni){
printf "\tsum_"k
}
for(k in guni){
printf "\tmean_"k
}
print ""
}NR>FNR&&FNR>1{
for(k in guni){
s[k]=0}
for(i=2;i<NF+1;i++){
s[g[i]]=strtonum(s[g[i]])+$i
}
printf $0
for(k in guni){
printf "\t"s[k]
}
for(k in guni){
printf "\t"s[k]/gnum[k]
}
print ""
}'
輸出文件:

執(zhí)行時間
測試數(shù)據(jù)為55827行,13列。結果:

這個時間是很快的,比R的aggregate快很多;使用python的group_by 函數(shù)也可以實現(xiàn),就不做比較了