基因組的坐標系統(tǒng):0-based and 1-based

這是我對 Yixf's blog 文章的一個學習總結。

20170330 在查看UCSC上的文件格式的資料時,我看到UCSC對不同的坐標系也有介紹,可參考!

這是一個很慘痛的教訓,因為我之前想當然地認為。基因組的坐標系統(tǒng)是這樣的:

序列 A T G C A
編號 1 2 3 4 5

但是其實這里是有兩套系統(tǒng)的。我們先看生活中的一個例子

樓層問題

第一層樓的高度是多少? 我們中國一般認為就是0。但是也有人把我們第二層所在的樓叫做第一層。

基因組坐標

在生物學的基因組坐標的表示中,有兩種方法:一種是大家比較容易理解的全包含的1-based(one-based, fully-closed),如[start, end];另一種是容易引起迷惑但卻常用而且易用的半包含的0-based(zero-based, half-open),如[start, end)。下面僅根據(jù)我的理解通過一個簡單的例子來說明一下。至于這兩種方法的詳細區(qū)別以及各自的優(yōu)缺點,請參考后面給出的鏈接。

Sequence:ATGC
1-Index:1234
0-Index:0123

其中TG的坐標位置如何表示呢?

1-based:[2,3]
0-based:[1,3)

還有一種不同的(真正的?)解釋方法如下:

基因組坐標系統(tǒng)

我們常用的數(shù)據(jù)格式及數(shù)據(jù)庫中,那些使用的1-based,那些使用的0-based?

UCSC的Tables使用的是0-based;
UCSC的Genome Browser使用的是1-based;
NCBI的dbSNP使用的是0-based;
BED、BAM格式使用的是0-based;
但是SAM格式是1-based;
VCF、GFF格式使用的是1-based。

關于 wig 、bigWig 和bedgraph 文件的格式

生信菜鳥 中有一些相關的論述。

這里我記載一下一些重要的結論: wig和bedgraph 還有bed文件是 0-based; Bigwig文件是 1-based

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,578評論 19 139
  • ANNOVAR的安裝 ANNOVAR網(wǎng)址 log in之后才能download,使用教育機構后綴的郵箱即可注冊。 ...
    面面的徐爺閱讀 23,499評論 1 26
  • Ubuntu的發(fā)音 Ubuntu,源于非洲祖魯人和科薩人的語言,發(fā)作 oo-boon-too 的音。了解發(fā)音是有意...
    螢火蟲de夢閱讀 100,708評論 9 468
  • 管理其實更多的是自我管理。以每天自己計劃更新的頭條號文章為例,能夠做到“每日按時更新”是一件既簡單又困難的事情。 ...
    邊召鵬閱讀 706評論 0 1
  • 走: 寞然行走于喧嘩的橋上 和每一份陌生擦肩而過 凌亂的腳步拖沓而無力 聽: 冷冽的風里藏納著歡笑 似傾訴在耳邊回...
    小道士5寶閱讀 219評論 0 0

友情鏈接更多精彩內容