從ensembl提取intron序列 更新中

從gff3提取intron的坐標(biāo)信息:

# 提取mRNA和exon信息:

awk '{if ($3 == "mRNA" ) print $0}' Homo_sapiens.GRCh38.94.gff3 > mRNA.gff3

awk '{if ($3 == "exon" ) print $0}' Homo_sapiens.GRCh38.94.gff3 >?exon.gff3

# 分別提取正負(fù)鏈的信息到bed:

awk 'BEGIN{FS="\t|:|;|=";OFS="\t"} {if($7=="+") print "chr"$1,$4,$5,$14,$16,$7,$11}' mRNA.gff3 | awk -F '\t' -v OFS='\t' 'gsub(/-[0-9]+/,"",$5)' > mRNA.+.bed

awk 'BEGIN{FS="\t|:|;|=";OFS="\t"} {if($7=="-") print "chr"$1,$4,$5,$14,$16,$7,$11}' mRNA.gff3 | awk -F '\t' -v OFS='\t' 'gsub(/-[0-9]+/,"",$5)' > mRNA.-.bed

awk 'BEGIN{FS="\t|:|;|=";OFS="\t"} {if($7=="+") print "chr"$1,$4,$5,$11,"rank="$23,$7}' exon.gff3 > exon.+.bed

awk 'BEGIN{FS="\t|:|;|=";OFS="\t"} {if($7=="-") print "chr"$1,$4,$5,$11,"rank="$23,$7}' exon.gff3 > exon.-.bed

#?取mRNA的exon補(bǔ)集:

bedtools subtract -a mRNA.+.bed -b exon.+.bed > intron.+.bed

bedtools subtract -a mRNA.-.bed -b exon.-.bed > intron.-.bed

#?取uniq的內(nèi)含子坐標(biāo):

cat intron.+.bed intron.-.bed | sort -k1,1 -k2,2n | awk '{if($2!=start || $3!=end)print; start=$2;end=$3}'> intron.bed

#?構(gòu)建成dict文件:

awk -v OFS='\t' '{if($6=="+") print $7,"intron",$1":"$2".."$3,$1,$2,$3,$6,".","intron:xxx",$4,$4","$7,$3-$2; else print $7,"intron",$1":complement("$2".."$3")",$1,$3,$2,$6,".","intron:xxx",$4,$4","$7,$3-$2}' intron.bed | awk -v OFS='\t' 'gsub(/chr/,"",$3)' > intron.dict

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 慢慢看,憋著急!很有用! 前言: 首先呢,在你的Linux系統(tǒng)中新建一個(gè)文件,Thanos.txt(紫薯俠賜予你力...
    劉小澤閱讀 3,469評論 6 33
  • 轉(zhuǎn)載 原文的排版和內(nèi)容都更加友好,并且詳細(xì),我只是在這里貼出了一部分留作自己以后參考和學(xué)習(xí),如希望更詳細(xì)了解AWK...
    XKirk閱讀 3,372評論 2 25
  • 本章主要學(xué)習(xí)內(nèi)容awk介紹 ?awk基本用法 ?awk變量 ?awk格式化 ?awk操作符 ?awk條件判斷 ?a...
    楠人幫閱讀 1,376評論 0 8
  • awk:報(bào)告生成器,格式化文本輸出 內(nèi)容: awk介紹 awk基本用法 awk變量 awk格式化 awk操作符 a...
    BossHuang閱讀 1,557評論 0 9
  • awk使用說明 awk是行處理器: 相比較屏幕處理的優(yōu)點(diǎn),在處理龐大文件時(shí)不會出現(xiàn)內(nèi)存溢出或是處理緩慢的問題,通常...
    好好學(xué)習(xí)的蝸牛閱讀 552評論 0 2

友情鏈接更多精彩內(nèi)容