為什么uBAM遲遲無法流行起來

uBAM就是非比對的BAM文件,fastq可以通過picard這個工具將其轉(zhuǎn)為這個格式。

它有不少優(yōu)于fastq格式的地方,比如:同一個read的數(shù)據(jù)都在同一行;拓展性強,可以添加豐富的metadata;方便維護,同一個樣本的測序數(shù)據(jù)甚至可以只通過一份uBAM來存儲就行了等。

從我第一次知道uBAM的時候算起,已經(jīng)過去4+年了。我也曾非??春盟?,認為它必是以后存儲下機數(shù)據(jù)的標準。然而時隔多年,很奇怪,uBAM這么好(GATK也都一直支持著這個格式),為什么還是遲遲不見它流行起來呢?

目前,使用uBAM格式的單位據(jù)我所知也僅僅只是一些比較大型的研究機構(gòu),比如美國的Broad Institute和英國的Sanger會采用它來存儲下機數(shù)據(jù)。

這段時間思考下來覺得可能有以下幾個原因,與諸位共享:

  1. BAM是“笨重”的,它并不是文本文件,你無法直接通過文本工具打開它查看具體內(nèi)容。只能通過第三方工具或者專門的SAM/BAM程序包(或者API)來實現(xiàn)對它的操作。這對許多不熟悉這一處理方式的研究者來說,會帶來很多麻煩。這等于是直接提高了操作這個文件的門檻,從這一點看使用體驗確實遠不如fastq;

  2. 主流工具還不完全支持,除了samtools和與它相關(guān)的少量工具,并沒有太多其他的工具直接支持在命令行操作BAM;

  3. BAM文件的空間占比并不比壓縮了的fastq小很多,優(yōu)勢有限;

  4. 底層IO效率方面,實際上也是文本格式的fastq(或者gzip壓縮的fastq)要高于BAM。

從uBAM的這個現(xiàn)象,或許也側(cè)面折射出了一些關(guān)于產(chǎn)品設(shè)計(或者方案設(shè)計)的問題。關(guān)于這個問題,我看到了三個地方,歡迎大家拍磚:

第一、體驗。一個產(chǎn)品或者方案要流行起來,除了解決需求之外,對 使用體驗的關(guān)注度要高于技術(shù)的先進性和產(chǎn)品本身的完備性;

第二、先發(fā)優(yōu)勢。時間一旦落后了(比如fastq早于uBAM很多年),用戶習慣的更改需要有完備的技術(shù)解決工具來支持,降低切換成本,甚至實現(xiàn)無痛切換,從而最大程度的保留新產(chǎn)品的優(yōu)勢;

第三、看似簡單的事物越是難以被取締。fastq格式是一個存儲測序數(shù)據(jù)極為簡單、簡明的數(shù)據(jù)格式,它只包含所有必須包含的內(nèi)容,而且目標明確,就是序列ID、測序數(shù)據(jù)和質(zhì)量值,它們都是必不可缺的信息,再多無用,似乎已是極致。


推薦閱讀


這是知識星球:『解螺旋技術(shù)交流圈』,是一個我與讀者朋友們的私人朋友圈。我有9年前沿而完整的生物信息學、NGS領(lǐng)域的工作經(jīng)歷,在該領(lǐng)域發(fā)有多篇Nature級別的科學文章,我也希望借助這個知識星球把自己的一些微薄經(jīng)驗分享給更多對組學感興趣的伙伴們。

自從星球正式運行以來,已經(jīng)過去了6個月,星球的成員也已經(jīng)超過220人了。所分享的主題超過了500個,回答的問題超過了140個,精華70個。我在知識星球上留下的文字估計也已經(jīng)超過10萬字,加上大家的就更多了,相信接下來星球的內(nèi)容一定還會不斷豐富。另外,上周獲得了知識星球官方評選的“最優(yōu)質(zhì)星球”優(yōu)秀獎。

這是知識星球上 第一個真正與基因組學和生物信息學強相關(guān)的圈子。我希望能夠借此營造一個高質(zhì)量的組學知識圈和人脈圈,通過提問、彼此分享、交流經(jīng)驗、心得等,彼此更好地學習生信知識,提升基因組數(shù)據(jù)分析和解讀的能力。

在這里你可以結(jié)識到全國優(yōu)秀的基因組學和生物信息學專家,同時可以分享你的經(jīng)驗、見解和思考,有問題也可以向我提問和圈里的星友們提問。

知識星球邀請鏈接:「解螺旋技術(shù)交流圈」

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容