BED 文件格式
Genome Browser FAQ
生物信息數(shù)據(jù)格式:bed格式
簡介
bed文件一般代表基因組位置信息,采用起始坐標為0的坐標系
BED文件每行至少包括chrom,chromStart,chromEnd三列必選;另外還可以添加額外的9列可選,這些列的順序是固定的。
可以自定義BED文件便于瀏覽器更好展示。但是,下游的一些分析工具如bedToBigBed不接受有注釋的BED文件。
格式
必須的三列:
chrom - 染色體的名稱(例如chr3,chrY,chr2_random或scaffold10671)。
chromStart- 染色體或支架中特征的起始位置,0-based。[)前閉后開區(qū)間
chromEnd- 染色體或支架中特征的結(jié)束位置。
9個可選的字段:
name - 定義BED行的名稱。
score - 基因在注釋數(shù)據(jù)集文件中的評分,得分在0到1000之間。在Genome Browser中評分越高灰度越高。
strand - 定義strand方向?!?” 或“+”或“ - ”
thickStart- feature的起始位置
When there is no thick part, thickStart and thickEnd are usually set to the chromStart position.
thickEnd - feature結(jié)束位置。
itemRgb- RGB值,方便在GenomeBrowser中查看。
blockCount- BED行中的外顯子數(shù)。
blockSizes- 逗號分隔,數(shù)目與blockCount值對應,表示對應外顯子的堿基數(shù)。
blockStart位置。逗號分割,表示對應外顯子的起始位置(相對ChromStart)。
示例
browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0
chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0
chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0
chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0
chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255
chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255
chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255
chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0
chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255

與GTF區(qū)別
BED文件中起始坐標為0,一個區(qū)域用左閉右開區(qū)間表示; GFF中起始坐標是1,一個區(qū)域用閉區(qū)間表示。
處理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。
其他類型
根據(jù)包含的列數(shù) BED文件可以叫做BED 3/4/5/../12
bedGraph
和wiggle格式類似,bedGraph對各個區(qū)域給出了一個連續(xù)性數(shù)據(jù)(continuous-valued data),用于展示各個區(qū)域的表達量或?qū)母怕手怠?/p>
例子:
chr19 49302000 49302300 -1.0
chr19 49302300 49302600 -0.75
chr19 49302600 49302900 -0.50
chr19 49302900 49303200 -0.25
chr19 49303200 49303500 0.0
chr19 49303500 49303800 0.25
chr19 49303800 49304100 0.50
chr19 49304100 49304400 0.75
chr19 49304400 49304700 1.00
bigBed
二進制壓縮版的BED或bedgraph。使用bedToBigBed 和 bigBedToBed 互相轉(zhuǎn)換