sort配合awk對(duì) GTF文件進(jìn)行重新排序

Hello,我是倚劍聽(tīng)雨,每日隨手更新~帶你看生信小白的日常!

如果你也打算在 hg19的 GTF 文件里添加 tRNA和 rRNA 的數(shù)據(jù)。

首先,tRNA 數(shù)據(jù)可以在GENCODEGRCh38.p10版本中下載Predicted tRNA genes。

其次,rRNA 的5s 5.8s 28s 18s 來(lái)自https://en.wikipedia.org/wiki/Ribosomal_RNA的前四個(gè)Reference。

使用 cat 命令可以合并兩個(gè) GTF 文件

cat A B > C

不過(guò) GTF 往往必須經(jīng)過(guò)排序才可以使用。比對(duì)hg19的 GTF發(fā)現(xiàn)其 GTF 格式先按照染色體排序,然后相同的染色體又對(duì) Start position,也就是第四列進(jìn)行排序。

通過(guò)使用sort配合awk可以簡(jiǎn)單的實(shí)現(xiàn)對(duì) GTF 文件的排序。下面是我的代碼

cat A.gtf | awk -F '\t' -v OFS=',' '{$1=$1;print}' | sort -t, -k1,1 -k4,5n | awk -F ',' -v OFS='\t' '{$1=$1;print}' > A.sorted.gtf &

注意:請(qǐng)確保你的 GTF 文件是 tab 鍵分隔,否則請(qǐng)改變 awk 的分隔符參數(shù)-F

轉(zhuǎn)載請(qǐng)注明出處,違者必究。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容