bedGraph,bed以及bam文件格式轉(zhuǎn)換

感興趣的基因信息包含在bedGraph文件中,下面命令是對其文件格式進(jìn)行轉(zhuǎn)換,一般進(jìn)行到bam文件可視化的效果比較好。

1. bedGraph轉(zhuǎn)bed文件

BedGraph ,的數(shù)據(jù)和bed文件很類似,ChIPseq數(shù)據(jù)做完peak calling后的bed文件最短只有三列,染色體序號,染色體起始位置和結(jié)束位置。如下所示,前面的聲明和Wig類似,后面的四列分別表示染色體序號,起始位置,結(jié)束位置和value值。相當(dāng)于為bed文件的延伸格式。

track type=bedGraph name="BedGraph Format" description="BedGraph format" visibility=full color=200,100,0 altColor=0,100,200 priority=20
chr19 49302000 49302300 -1.0
chr19 49302300 49302600 -0.75
chr19 49302600 49302900 -0.50
chr19 49302900 49303200 -0.25
chr19 49303200 49303500 0.0
chr19 49303500 49303800 0.25
chr19 49303800 49304100 0.50
chr19 49304100 49304400 0.75
chr19 49304400 49304700 1.00

所以我們想要得到bed文件只需要提取bedGraph的前三列即可,同時注意不要第一行,利用grep -v命令

# Convert bedGraph to bed file
grep -v track GSM1252087_edm2-4_RNAseq.bedGraph | cut -f 1-3 > GSM1252087_edm2-4_RNAseq.bed

2. 建立genome size文件

genome size文件是為了最后一步轉(zhuǎn)化為bam文件所必須的,samtools可以很簡單的建立index文件

# Build genome index file
samtools faidx Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

生成的索引文件genome.fasta.fai,是一個文本文件,分成了5列。第一列是子序列的名稱;第二列是子序列的長度;個人認(rèn)為“第三列是序列所在的位置”,因為該數(shù)字從上往下逐漸變大,最后的數(shù)字是genome.fasta文件的大??;第4和5列不知是啥意思。于是通過此文件,可以定位子序列在fasta文件在磁盤上的存放位置,直接快速調(diào)出子序列。

genome size文件包含index文件的前兩行,也就是chromosome信息和子序列的長度,所以我們可以提取作為genome size。

# Build the genome size file
awk {'print "Chr"$1,"\t",$2'} Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.fai > Arabidopsis_genomeFile.txt

3. bed轉(zhuǎn)bam

bedtools工具提供的bedtobam命令

# Change the bed file to bam file
cat GSM1252087_edm2-4_RNAseq.bed | awk '{x++; printf "%s\tread%d\n",$0,x}' | bedtools bedtobam -g Arabidopsis_genomeFile.txt -i - > GSM1252087_edm2-4_RNAseq.bam

Ref:
http://www.chenlianfu.com/?p=1399

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前言 在各個行業(yè)都是有行業(yè)標(biāo)準(zhǔn)的,這樣才能統(tǒng)一規(guī)范而方便后面的分析,在生物信息學(xué)領(lǐng)域中主要是各種大量序列數(shù)據(jù)、注釋...
    天涯清水閱讀 20,419評論 0 74
  • 尋找trio家系新發(fā)突變位點 http://wintervar.wglab.org/錯義突變評估網(wǎng)站突變reads...
    Hocchan_7閱讀 4,343評論 0 51
  • 項目管理是一個系統(tǒng)化的方法論,同時需要結(jié)合現(xiàn)實情況,動態(tài)調(diào)整實施。例如球場的人數(shù)與位置固定,而在實際比賽中又動態(tài)調(diào)...
    黃嶸才閱讀 690評論 0 1
  • 今天的強度有點大,我也不知道從哪里著手開始做復(fù)盤,所以前后羅列的估計也是毫無邏輯性……?????? 培訓(xùn)的本質(zhì)是創(chuàng)造企業(yè)...
    雨文_yuwencc1009閱讀 1,157評論 4 7
  • 有一天,我們業(yè)務(wù)突然給我轉(zhuǎn)來一個客戶,問我這個客戶是不是我轉(zhuǎn)給他們的,已經(jīng)簽單了。我很是為他高興,同時心里也在范嘀...
    村上桐樹閱讀 230評論 0 2

友情鏈接更多精彩內(nèi)容