怎么去進行基因組的組裝

有很多伙伴,都在進行基因組的組裝,但是具體需要干什么,從什么地方開始,下一步又應該做什么?并不是很了解。
我用下面一份流程圖來簡單的說一下,整個基因組組裝應該做些什么。也是我組裝多個基因組之后,梳理的流程,或許也有一些欠缺,歡迎大家指出!

基因組組裝.png

最基本的流程就是:

1.明確自己的物種信息,包括物種倍性、染色體條數(shù)、大概的基因組大??;
2.得到自己的測序數(shù)據(jù),明確自己的數(shù)據(jù)是PacBio HiFi還是Nanopore數(shù)據(jù);
3.選擇對應的軟件開始進行組裝,不過現(xiàn)在的組裝軟件基本上都支持多種數(shù)據(jù)類型,只是使用過程中的一些參數(shù)不同而已;
4.如果你得到的是最原始的測序下機數(shù)據(jù),也就是我們得到的是bam文件的數(shù)據(jù)類型,那么做的第一步就是將bam文件轉為fastq/fasta文件;因為軟件不支持輸入文件為bam文件;
5.通過各種軟件進行組裝,最終得到contig文件,進行各項評估,查看各項指標是否滿足需求或者說質量是否高。例如contigN50的統(tǒng)計、BUSCO完整性的評估、GC含量的統(tǒng)計等等。(如果你的contig冗余太高,還要進行去冗余處理)
6.在通過軟件,例如AllHiC、RagTag等;加上輔助數(shù)據(jù),例如Hic數(shù)據(jù),參考基因組等,對你的contig序列進行整合,到達scaffold水平,也就是我們說的染色體水平;并繪制一個染色體的共線熱圖
7.得到scaffold水平的基因組之后就可以開始進行,基因的結構注釋,得到一個完整的一套基因組文件(genome/gtf/gff3/cds/pep)文件;
8.進行基因組的TE注釋,用EDTA軟件進行,得到基因組的LTR信息;
9.對組裝出來的基因組,進行評估,大抵上和評估contig的時候差不多;但是BUSCO這時候評估的就是蛋白序列(pep);
10.統(tǒng)計各項指標:基因數(shù)目、外顯子數(shù)目、內含子數(shù)目、miRNA數(shù)目、tRNA數(shù)目等。

若有遺漏,歡迎大家指出和糾正!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉載,如需轉載請通過簡信或評論聯(lián)系作者。

相關閱讀更多精彩內容

友情鏈接更多精彩內容