【Linux】 awk快速匹配合并2個(gè)表格

作為三劍客之一的awk的功能不用多介紹了,文本處理能力不輸Perl,尤其是在命令行快速使用。(當(dāng)然Perl的單行命令也是很強(qiáng)的)

需求

我有一個(gè)表格1(轉(zhuǎn)錄因子數(shù)據(jù)庫文件)table1.xls

image.png

還有一個(gè)表格2(典型的blast m8格式輸出結(jié)果,第一列是geneID,第二列是轉(zhuǎn)錄因子數(shù)據(jù)庫ID)table2.xls
image.png

我想要得到這樣一個(gè)表格table3.xls

image.png

題外話:有朋友要問了,為什么比對結(jié)果文件的subject有兩個(gè)Ensembl ID呢?這是因?yàn)檗D(zhuǎn)錄因子數(shù)據(jù)庫的ID本來就有兩個(gè)呀,所以比對到也就兩個(gè)咯??瓤龋孟駴]答到點(diǎn)子上,因?yàn)槲乙膊恢溃蟾攀?code>Isoform咯。

image.png

處理

awk -F' ' '{print $2"   "$(NF-1)"       "$NF}'  table1.xls | \\
awk -F' ' 'NR==FNR{a[$1]=$0;next}{split($2,array,/:/);if (array[1] in a) print $1"      "a[array[1]];else if(array[2] in a)print $1"  "a[array[2]]}' - table2.xls  >table3.xls
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容