【shell筆記>命令|實(shí)戰(zhàn)】zcat與awk簡(jiǎn)單連用

有些數(shù)據(jù)文件太大,一般采用gzip壓縮,比如我現(xiàn)在處理的ICGC數(shù)據(jù)。下載1到2G,一解壓感覺(jué)要炸。其實(shí)文件里面的信息很多,我們需要的往往只有幾個(gè)域而已。這時(shí)候我們可以通過(guò)zcatawk連用省去中間的解壓過(guò)程直接提取出我們想要的域(類似R中數(shù)據(jù)框的列向量)。

比如下面我提取出壓縮文件中的前兩個(gè)域并以tab分隔輸出。

wangshx@wangshx-KVM:~/projects/Mut-Signature/dataset$ zcat simple_somatic_mutation.open.tsv.gz | head | awk 'BEGIN{OFS="\t";} {print $1,$2}'
icgc_mutation_id    icgc_donor_id
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633
MU28469596  DO50633

我們還可以通過(guò)FS來(lái)指定輸入的分隔符。

zcat simple_somatic_mutation.open.tsv.gz | head | awk 'BEGIN{FS="\t";OFS="\t";} {print $1,$2}'

這樣awk會(huì)以tab鍵區(qū)分輸入文件的域,不然默認(rèn)用空格鍵。

zcat

awk

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容