在實(shí)驗(yàn)室經(jīng)常聽(tīng)到師兄師姐評(píng)估基因組提到一個(gè)點(diǎn)就是,基因組能拼成圈嗎,當(dāng)時(shí)還是生信小白(現(xiàn)在是個(gè)資深小白)的我僅僅見(jiàn)識(shí)過(guò)circos的華麗圖片,以為他們口中所說(shuō)的成圈是circos的圖,滿臉疑惑能成圈啊,為什么不能,但前輩們口中說(shuō)的實(shí)際上并不是circos,而是bandage的可視化圖。
0、幾個(gè)疑問(wèn)
- 為什么要可視化
- 能從可視化中得到什么信息
- 結(jié)果怎么解讀,從反饋的信息中怎么調(diào)整拼接?
1、可視化的目的
-
把拼接結(jié)果可視化,讓基因組拼接過(guò)程不再成為一個(gè)黑盒子操作的過(guò)程,從而提升拼接的效率,減少因拼接而帶來(lái)的信息丟失問(wèn)題。根據(jù)論文作者的原話就是,bandage能展現(xiàn)contig之間的關(guān)聯(lián)和關(guān)系。
image.png
2、實(shí)操部分
以拼接軟件SPades的的拼接結(jié)果為例
-
所需要的文件: SPAdes拼接后會(huì)產(chǎn)生一個(gè)叫assembly_path.fastg的文件
assembly_graph -
打開(kāi)bandage的界面,點(diǎn)擊load graph,這個(gè)軟件對(duì)文件的類型敏感,必須是軟件支持的類型才能打開(kāi)
Bandage支持可視化的所有文件類型 -
選擇Entire graph和single,點(diǎn)擊Draw graph
畫(huà)圖
PS:其他文件類型隨便玩玩,不過(guò)能顯示contig之間關(guān)系的只能是assembly_path.fastg這個(gè)文件
-
軟件的安裝
界面版本
http://rrwick.github.io/Bandage/
3、可視化結(jié)果得到的信息(kmer設(shè)置是否合理)
- 在官方的文檔中,最重要的一個(gè)評(píng)估是
Effect of kmer size,從bandage的拼接結(jié)果中可以看出Kmer的長(zhǎng)度設(shè)置是否合理,從而調(diào)整Kmer的長(zhǎng)度,增大或減小。

Kmer長(zhǎng)度過(guò)長(zhǎng)
- kmer長(zhǎng)度設(shè)置過(guò)長(zhǎng)會(huì)導(dǎo)致很多片段組裝不到基因組上,變相損失不少

Kmer長(zhǎng)度過(guò)短
- 該事例由官方提供


總結(jié)(kmer的角度)
- bandage評(píng)估的維度主要有兩個(gè):基因組結(jié)的多少(復(fù)雜程度),碎片片段
- 碎片太多,說(shuō)明kmer太長(zhǎng)或者太短;
- 基因組的拼接過(guò)程太多的node,過(guò)于復(fù)雜說(shuō)明kmer過(guò)短;
- 長(zhǎng)度合適的kmer得到的拼接結(jié)果應(yīng)該是node的節(jié)點(diǎn)比較少,但能使基因組成圈,小于1000bp的基因組碎片也少。
另附一些神奇的小功能
點(diǎn)擊node按下Ctrl + V可以復(fù)制當(dāng)前的整一條node中的序列
blast功能,可以先建立16S rRNA基因庫(kù),讓基因組與16S相比對(duì)
此篇未來(lái)還會(huì)不斷地補(bǔ)充和更新,有需要的看官們隨手關(guān)注點(diǎn)個(gè)贊唄,愛(ài)你們~



