老規(guī)矩,先和同學(xué)們介紹一下為什么要做這么一款軟件?基因組比對(duì)paf格式文件:

當(dāng)同學(xué)們需要進(jìn)行基因組層面的序列比較時(shí),通常要面對(duì)如上所示的比對(duì)結(jié)果文件,這個(gè)文件可能有幾十萬(wàn)甚至幾百萬(wàn)行,那么想要從如此大量的數(shù)據(jù)中篩選出所需要的信息將成為一個(gè)無(wú)比繁瑣且耗時(shí)的過(guò)程,其痛苦不言而喻。而目前所發(fā)表的可視化軟件在處理大文件(超過(guò)1GB)時(shí)又表現(xiàn)出卡、頓等不佳的情況。因此,為了解決基因組層面比對(duì)可視化問(wèn)題并順應(yīng)基因組T2T發(fā)展潮流,特意開(kāi)發(fā)了RAviz來(lái)解決這類問(wèn)題。
安裝系統(tǒng)
可在Windows及MacOS上安裝
具體介紹及操作如下
1、RAviz界面

RAviz一共分為四個(gè)部分。第一部分(①)是對(duì)作圖的一些參數(shù)的調(diào)整,該部分是可選的且通常不需要調(diào)節(jié),在設(shè)計(jì)軟件時(shí)已經(jīng)將各參數(shù)盡可能調(diào)整到了最佳的一個(gè)狀態(tài)。第二部分是會(huì)顯示與作圖相關(guān)的原始數(shù)據(jù),因?yàn)镽Aviz在繪圖過(guò)程中會(huì)根據(jù)設(shè)定參數(shù)為同學(xué)們過(guò)濾一些不是那么靠譜的比對(duì)結(jié)果。第三部分(③)用于paf格式比對(duì)結(jié)果的可視化。第四部分在展示比對(duì)結(jié)果的同時(shí)也可以展示rare kmers(這個(gè)在T2T組裝中發(fā)揮了重要作用)。
2、paf格式比對(duì)結(jié)果的可視化
paf格式的比對(duì)結(jié)果至少應(yīng)該至少包括12列,如下面文件所示:

從第一列到第十二列,其內(nèi)容分別是:query ID, query序列的總長(zhǎng)度,比對(duì)部分在query序列上的起點(diǎn),比對(duì)部分在query序列的重點(diǎn),比對(duì)是發(fā)生在正鏈還是負(fù)鏈上,參考序列的ID,參考序列的長(zhǎng)度,比對(duì)部分在參考序列上的起點(diǎn),比對(duì)部分在參考序列上的終點(diǎn),比對(duì)部分的長(zhǎng)度,含有g(shù)ap的比對(duì)部分的長(zhǎng)度,比對(duì)質(zhì)量以及其他部分。
這個(gè)格式的比對(duì)結(jié)果可以通過(guò)minimap2軟件(https://github.com/lh3/minimap2)。在得到比對(duì)結(jié)果后,需要將比對(duì)結(jié)果按照第一列進(jìn)行排序(可以使用的命令是:sort -k 1,1 +路徑+“ -o ” +保存路徑)。同時(shí),RAviz支持拖拽文件的操作。
在RAviz中,我們通過(guò)構(gòu)建index文件的方法來(lái)快速顯示大文件(>1GB)的比對(duì)內(nèi)容。在第一次進(jìn)行可視化的過(guò)程中,RAviz會(huì)自動(dòng)根據(jù)第一列的內(nèi)容構(gòu)建index文件。另外,考慮到一些用戶可能想要分析第六列即想要分析參考ID的那一列,可以通過(guò)點(diǎn)擊按鈕“t->q”來(lái)實(shí)現(xiàn)對(duì)第六列索引文件的構(gòu)建。“alignment_length”(默認(rèn)值1000)以及“mapping_quality”(默認(rèn)值60)則可以用于過(guò)濾比對(duì)結(jié)果。點(diǎn)擊“draw”即可展示比對(duì)結(jié)果。當(dāng)文件太大,確實(shí)很難一次性顯示所有內(nèi)容,RAviz將每次只顯示8000行,可以通過(guò)點(diǎn)擊“next”按鈕瀏覽下一個(gè)8000行而擊“before”可以瀏覽上一個(gè)8000行。上面所述的內(nèi)容僅僅只是比對(duì)結(jié)果的粗略展示,如果想要進(jìn)一步細(xì)致的觀察比對(duì)結(jié)果,RAviz允許用戶通過(guò)放入感興趣的ID來(lái)進(jìn)行可視化展示,其位置如下圖所示:

放入ID后,用戶在放入ID后還需要點(diǎn)擊“query ID”或者“reference ID”來(lái)進(jìn)行繪制。如果比對(duì)文件太大,很難通過(guò)打開(kāi)文件來(lái)獲得ID ,這個(gè)時(shí)候用戶可以使用“show query ID”或者“show reference ID”來(lái)獲取相應(yīng)的ID。繪制的結(jié)果是SVG或者pdf等矢量圖格式,從而保證了展示結(jié)果的高度清晰并且RAviz將自動(dòng)調(diào)用系統(tǒng)默認(rèn)的程序來(lái)展示結(jié)果。我們建議用戶使用Adobe Acrobat Pro DC軟件來(lái)展示PDF文件并將其設(shè)置為系統(tǒng)默認(rèn)程序。
3、rare kmers的結(jié)果可視化
在這個(gè)部分,RAviz將同時(shí)顯示比對(duì)結(jié)果以及rare kmers結(jié)果。輸入文件如下所示:

其基本格式為:query ID, query序列的總長(zhǎng)度,比對(duì)部分在query序列上的起始位置,比對(duì)部分在query序列的終止位置,比對(duì)發(fā)生在正鏈還是負(fù)鏈,參考ID,參考序列的總長(zhǎng)度,比對(duì)部分在參考序列上的起始位置,比對(duì)部分在參考序列的終止位置,之后是rare kmers對(duì)應(yīng)的起始位置和終止位置。為了能夠便捷地得到輸入文件,除RAviz外,還為同學(xué)們特意準(zhǔn)備了另外一份腳本,通過(guò)該腳本的運(yùn)行可以流暢地得到輸入文件,腳本的位置在https://github.com/xianjia10/kmer-map.git。關(guān)于該腳本的具體使用已經(jīng)在github上了做了詳細(xì)說(shuō)明。該腳本的運(yùn)行會(huì)得到三個(gè)文件,如果運(yùn)行腳本輸入文件是1.paf,則這三個(gè)文件的名字分別是1.sort.kmermap,1.sort.kmermap.query.index以及1.sort.kmermap.reference.index。在使用的時(shí)候需要將這三個(gè)文件放入到同一個(gè)文件夾中。
另外,在測(cè)試階段,我們發(fā)現(xiàn)在產(chǎn)生paf文件的過(guò)程中比對(duì)軟件可能會(huì)不明原因的默認(rèn)添加很多奇怪的字符,這個(gè)時(shí)候就會(huì)就會(huì)影響到后續(xù)的分析。因此,希望同學(xué)們?cè)谑褂们耙欢ㄒ獧z測(cè)好文件格式是否能夠滿足要求。檢測(cè)方法如下:

點(diǎn)擊“draw”按鈕,如果程序能夠正常運(yùn)行則基本可以確定paf文件是可用的。
與前一個(gè)模塊不同的是,在顯示kmer的這個(gè)模塊中,“before”和“next”按鈕是按照ID來(lái)逐個(gè)顯示的而不是前一個(gè)模塊的按8000行顯示。其他操作基本與之前模塊相同。
4、對(duì)可視化結(jié)果的解讀
paf文件可視化的結(jié)果

上下兩行,分別代表了query和reference ID,中間的線連通的是比對(duì)部分,如果線有近似平行的關(guān)系,則表示比對(duì)發(fā)生在正鏈上;如果兩個(gè)線出現(xiàn)交叉的情況則表示比對(duì)出現(xiàn)在負(fù)鏈上。
如果用戶需要對(duì)比對(duì)結(jié)果進(jìn)行更細(xì)致的觀測(cè),則點(diǎn)擊“draw details based on the input ID”按鈕,即可出現(xiàn)如下結(jié)果:

而當(dāng)同時(shí)顯示比對(duì)以及rare kmers結(jié)果時(shí)會(huì)產(chǎn)生如下結(jié)果:

如上圖的第一圖所示,這個(gè)比對(duì)含有很多的kmers,而與之對(duì)應(yīng)的下圖的比對(duì)則沒(méi)有kmers,這說(shuō)明上圖的比對(duì)可靠性高于下圖中的比對(duì),這種判斷將在T2T組裝中發(fā)揮重要作用。
5、快速開(kāi)始
以上是對(duì)于RAviz的詳細(xì)描述,事實(shí)上,為進(jìn)一步簡(jiǎn)化同學(xué)們操作時(shí)的步驟,很多都設(shè)置了默認(rèn)的參數(shù),因此實(shí)際操作會(huì)簡(jiǎn)單很多,以下是操作基本步驟的匯總
5.1 當(dāng)使用paf文件進(jìn)行可視化

5.2 如果想要瀏覽下一個(gè)8000行

5.3 輸入ID以顯示特定ID的內(nèi)容

5.4 當(dāng)想看一下reference ID的內(nèi)容時(shí)

5.5 顯示特定ID kmer的分布情況
1、

2、

3、輸入ID并勾選ID 類型

4、點(diǎn)擊二鍵中的任意一個(gè)以不同的風(fēng)格顯示內(nèi)容

5、結(jié)果

文本框這個(gè)位置會(huì)顯示基本的信息,包括比對(duì)位置及信息以及kmer的數(shù)量情況
當(dāng)數(shù)量少的時(shí)候會(huì)自動(dòng)以svg閱讀器的方式顯示,ctrl+鼠標(biāo)滾輪,將對(duì)生成圖片進(jìn)行自由地放大和縮小操作

可以看出kmer主要分布在了片段的這個(gè)位置上
