在高通量測(cè)序數(shù)據(jù)的處理中(例如,在重測(cè)序研究、組裝結(jié)果的re-mapping校正中),我們經(jīng)常會(huì)將測(cè)序reads與參考序列進(jìn)行比對(duì)(常見(jiàn)的如BWA、Bowtie等工具),并將比對(duì)結(jié)果以bam文件存儲(chǔ)(sam文件的二進(jìn)制格式,極大節(jié)省了存儲(chǔ)空間。對(duì)于bam/sam文件的簡(jiǎn)介說(shuō)明,點(diǎn)擊查看)。在linux系統(tǒng)下,通常我們可以很方便的使用samtools對(duì)參考序列以及bam文件進(jìn)行處理。
雖然大多數(shù)情況下bam文件僅作為數(shù)據(jù)存儲(chǔ)文件使用,但有時(shí)候我們還是很期望將bam文件中的內(nèi)容可視化,例如查看測(cè)序reads在參考基因組序列中的對(duì)齊分布、覆蓋程度等??赡苓@時(shí)候,常用的bam文件處理工具samtools就不太容易滿足需求(盡管samtools也能實(shí)現(xiàn)這種可視化功能,但是可視化效果比較簡(jiǎn)陋,在終端界面下僅有簡(jiǎn)單的點(diǎn)和線構(gòu)成)。對(duì)于其它的工具,我們也有很多可以選擇,例如IGV、Tablet等,將參考序列fasta文件以及比對(duì)結(jié)果bam文件導(dǎo)入后即可將參考序列的堿基組成信息、測(cè)序reads在參考序列中的位置以及覆蓋情況等可視化呈現(xiàn)。本文簡(jiǎn)介如何使用Tablet查看bam文件。

本文使用到的示例bam文件,以及參考基因組序列,可在以下鏈接獲取。
https://pan.baidu.com/s/1yYQNxty5hBdcpoA8xkrQUg
其中,bam文件“Bacillus_subtilis.dup.bam”及其索引文件“Bacillus_subtilis.dup.bam.bai”(由samtools建立索引獲得)可見(jiàn)“B-rmdup”;參考基因組序列“Bacillus_subtilis.str168.fasta”可見(jiàn)“0-refer”。
Tablet下載安裝
其實(shí)一直很疑惑,Tablet這個(gè)軟件很早就有了,而且用起來(lái)感覺(jué)還不錯(cuò),就是不知為啥網(wǎng)上很少能搜到它的相關(guān)介紹。看看IGV,教程那么多……雖然IGV功能更多,但是Tablet作為一款好用的輕量級(jí)軟件,應(yīng)該使用率也很廣才對(duì)。
多余的話就先不說(shuō)了,Tablet官方網(wǎng)站:https://ics.hutton.ac.uk/tablet/


點(diǎn)擊“download”即可進(jìn)入下載界面,下載界面提供了3種平臺(tái)的版本,根據(jù)需要選擇對(duì)應(yīng)的版本下載。Tablet源碼可見(jiàn)https://github.com/cropgeeks/tablet。
作為一款優(yōu)秀的高通量測(cè)序序列查看器,除了能夠查看序列比對(duì)結(jié)果bam/sam文件外,Tablet還有很多功能。本文中不再細(xì)說(shuō)其它功能,可見(jiàn)官網(wǎng)上其功能描述,或者點(diǎn)擊原參考文獻(xiàn)閱讀,以及參閱幫助文檔(http://tablet.hutton.ac.uk/en/latest/index.html)等,詳細(xì)了解該軟件的使用。
Tablet使用起來(lái)挺簡(jiǎn)單的,對(duì)于常規(guī)的功能(例如查看bam/sam文件等),無(wú)需參閱幫助文檔也能夠快速上手。在這里我下載了windows版的,并在下文簡(jiǎn)要展示其使用。
使用Tablet查看BAM文件
數(shù)據(jù)導(dǎo)入
bam文件在Tablet中的可視化需要用到索引文件bam.bai。使用samtools軟件獲得bam文件的索引文件bam.bai,以示例文件為例,在linux命令行下使用“samtools index Bacillus_subtilis.dup.bam”,即可得到“Bacillus_subtilis.dup.bam.bai”。
導(dǎo)入文件至Tablet時(shí),必須保證“Bacillus_subtilis.dup.bam”與“Bacillus_subtilis.dup.bam.bai”在同一路徑中才能夠?qū)am文件成功導(dǎo)入。
fasta文件中的序列,必須和bam文件中的序列信息相互對(duì)應(yīng)。

Tablet界面基本操作介紹
等待一小會(huì)兒后,數(shù)據(jù)成功導(dǎo)入。若fasta文件中存在多條序列,則在界面左側(cè)會(huì)顯示多條序列id,點(diǎn)擊對(duì)應(yīng)的序列id即可查看測(cè)序reads在參考序列上的分布情況。在主界面中,測(cè)序reads在該序列上的對(duì)齊位置、覆蓋程度、堿基差異等信息清晰可見(jiàn)。


備注:右鍵“新標(biāo)簽打開(kāi)圖片”等操作可以查看大圖。
默認(rèn)情況下,測(cè)序reads以A、T、G、C等堿基類型著色。在界面上方點(diǎn)擊“Colour Schemes”,可更改reads顏色展示方式。例如點(diǎn)擊“Variants”后,reads序列中與參考序列一致的堿基將展示為灰色,不一致的展示為紅色(變異堿基,或者測(cè)序錯(cuò)誤導(dǎo)致等)。

在“Advanced”中,可更改界面風(fēng)格、窗口展示等。例如,點(diǎn)擊?“Coverage”?選項(xiàng)后,在序列整體reads覆蓋情況窗口界面中,將會(huì)以漸變色的的樣式來(lái)展示reads在參考序列中的覆蓋深度情況(參見(jiàn)上文,之前的樣式是以A、T、G、C四種顏色展示的,即“Scaled”選項(xiàng))。

常用的過(guò)濾/查找/定位選項(xiàng)
以上是對(duì)Tablet主界面的基本簡(jiǎn)介,其實(shí)該軟件上手挺簡(jiǎn)單的。在了解了它的基本情況后,我們來(lái)看一些常用的過(guò)濾/查找/定位選項(xiàng),以幫助我們定位、查找想要得知的信息。
若想快速定位至參考序列的某一段區(qū)域,可在“Advanced”中點(diǎn)擊“Subset”選擇查看的區(qū)域。

若想將參考序列中某一段序列截?。◤?fù)制)下來(lái),需要在主界面的參考序列展示位置處右擊,選擇“Copy a subsequence to clipboard”后,在彈出的窗口中輸入選定的序列區(qū)域,再點(diǎn)擊“Copy”即可完成復(fù)制。此時(shí)可以任意打開(kāi)一個(gè)文本編輯器(如記事本),ctrl+v粘貼即可。

若想查找某一條測(cè)序reads在參考序列中的對(duì)齊位置,在界面左方點(diǎn)擊搜索框,選擇搜索類型后輸入reads的id即可。

在左側(cè)窗口中點(diǎn)擊“more”,可以查看參考序列的基本統(tǒng)計(jì)信息,包含fasta文件中序列的平均長(zhǎng)度、最長(zhǎng)/最短序列等。在多條參考序列的情況下,想過(guò)濾一些不必要的序列時(shí),可以在這里操作。

其它信息
在主界面查看序列reads覆蓋情況時(shí),有時(shí)會(huì)看到這樣的標(biāo)記“[”、“]”等。

備注:當(dāng)標(biāo)記不為單一的“[”等組成,而是由一連串連續(xù)的標(biāo)記組成時(shí),需仔細(xì)查看參考序列的這段位置與測(cè)序reads之間是否存在著較大的差異。在重測(cè)序中,通常表明兩個(gè)個(gè)體基因組中,在這段區(qū)域的序列組成具有明顯的區(qū)別。若參考序列為使用相同的測(cè)序reads數(shù)據(jù)組裝所得的序列時(shí),則需要著重檢查該區(qū)域是否出現(xiàn)了錯(cuò)誤拼接。如下示例,參考序列為一段由測(cè)序reads組裝所得的序列,將測(cè)序reads重新比對(duì)至組裝結(jié)果中時(shí),發(fā)現(xiàn)這段區(qū)域“]?”、“[”左右兩側(cè)的大多數(shù)reads幾乎沒(méi)有明顯的overlap區(qū),幾乎全部被隔斷在左右兩側(cè)。似乎這段序列在這個(gè)位置不應(yīng)該被連在一起,更應(yīng)該被打斷為兩段序列才更合適。這時(shí)需要仔細(xì)檢查這段區(qū)域,是否存在少數(shù)reads能夠跨越這個(gè)交點(diǎn),有效支持左右的序列連接;或者這里確實(shí)出現(xiàn)了錯(cuò)誤拼接,需要打斷處理。

參考序列中出現(xiàn)了一段區(qū)域無(wú)測(cè)序reads覆蓋的情況,如上文所說(shuō)。若有充分理由相信這不是測(cè)序未覆蓋到的情況時(shí),則可以認(rèn)為測(cè)序個(gè)體的基因組中在該區(qū)域發(fā)生了較大的片段缺失。

對(duì)于小的堿基變異,如SNP、InDel等,也可通過(guò)比對(duì)結(jié)果清晰看出。如下示例,判斷SNP堿基以及測(cè)序錯(cuò)誤的堿基。

備注:如果有SNP、InDel檢測(cè)結(jié)果的vcf文件,則可以結(jié)合vcf文件中提供的變異位置信息,再通過(guò)Tablet查看比對(duì)結(jié)果,以更好地查看確認(rèn)這些位置。
此外,有時(shí)在Tablet中還會(huì)看到這樣的reads,展示的長(zhǎng)度很短。實(shí)際上,可能并非由于reads本身測(cè)得短,而是由于該reads中只有一部分能比對(duì)至參考序列的這段區(qū)域,未比對(duì)上的部分由于太長(zhǎng)就隱藏掉了。這種情形一般出現(xiàn)在重復(fù)序列中,如下所示(模糊的話,可右鍵“新標(biāo)簽頁(yè)打開(kāi)圖片”查看大圖)。

參考文獻(xiàn):Milne I , Stephen G , Bayer M , et al. Using Tablet for visual exploration of second-generation sequencing data. Briefings in Bioinformatics, 2013, 14(2):193-202.
-------------------------------------------------------------------------------------------I am a line !------------------------------------------------------------------------------------------------------------
轉(zhuǎn)載鏈接地址:http://blog.sciencenet.cn/blog-3406804-1185182.html?