這是我對 Yixf's blog 文章的一個學習總結。
20170330 在查看UCSC上的文件格式的資料時,我看到UCSC對不同的坐標系也有介紹,可參考!
這是一個很慘痛的教訓,因為我之前想當然地認為。基因組的坐標系統(tǒng)是這樣的:
| 序列 | A | T | G | C | A |
|---|---|---|---|---|---|
| 編號 | 1 | 2 | 3 | 4 | 5 |
但是其實這里是有兩套系統(tǒng)的。我們先看生活中的一個例子
樓層問題
第一層樓的高度是多少? 我們中國一般認為就是0。但是也有人把我們第二層所在的樓叫做第一層。
基因組坐標
在生物學的基因組坐標的表示中,有兩種方法:一種是大家比較容易理解的全包含的1-based(one-based, fully-closed),如[start, end];另一種是容易引起迷惑但卻常用而且易用的半包含的0-based(zero-based, half-open),如[start, end)。下面僅根據(jù)我的理解通過一個簡單的例子來說明一下。至于這兩種方法的詳細區(qū)別以及各自的優(yōu)缺點,請參考后面給出的鏈接。
Sequence:ATGC
1-Index:1234
0-Index:0123
其中TG的坐標位置如何表示呢?
1-based:[2,3]
0-based:[1,3)
還有一種不同的(真正的?)解釋方法如下:

我們常用的數(shù)據(jù)格式及數(shù)據(jù)庫中,那些使用的1-based,那些使用的0-based?
UCSC的Tables使用的是0-based;
UCSC的Genome Browser使用的是1-based;
NCBI的dbSNP使用的是0-based;
BED、BAM格式使用的是0-based;
但是SAM格式是1-based;
VCF、GFF格式使用的是1-based。
關于 wig 、bigWig 和bedgraph 文件的格式
生信菜鳥 中有一些相關的論述。
這里我記載一下一些重要的結論: wig和bedgraph 還有bed文件是 0-based; Bigwig文件是 1-based