作為三劍客之一的awk的功能不用多介紹了,文本處理能力不輸Perl,尤其是在命令行快速使用。(當(dāng)然Perl的單行命令也是很強(qiáng)的)
需求
我有一個(gè)表格1(轉(zhuǎn)錄因子數(shù)據(jù)庫文件)table1.xls:

image.png
還有一個(gè)表格2(典型的
blast m8格式輸出結(jié)果,第一列是geneID,第二列是轉(zhuǎn)錄因子數(shù)據(jù)庫ID)table2.xls:
image.png
我想要得到這樣一個(gè)表格table3.xls:

image.png
題外話:有朋友要問了,為什么比對結(jié)果文件的subject有兩個(gè)Ensembl ID呢?這是因?yàn)檗D(zhuǎn)錄因子數(shù)據(jù)庫的ID本來就有兩個(gè)呀,所以比對到也就兩個(gè)咯??瓤龋孟駴]答到點(diǎn)子上,因?yàn)槲乙膊恢溃蟾攀?code>Isoform咯。

image.png
處理
awk -F' ' '{print $2" "$(NF-1)" "$NF}' table1.xls | \\
awk -F' ' 'NR==FNR{a[$1]=$0;next}{split($2,array,/:/);if (array[1] in a) print $1" "a[array[1]];else if(array[2] in a)print $1" "a[array[2]]}' - table2.xls >table3.xls