使用BUSCO檢測(cè)基因組組裝完整性

BUSCO官網(wǎng):https://busco.ezlab.org/

BUSCO數(shù)據(jù)庫(kù):https://busco-data.ezlab.org/v4/data/lineages/

1. 下載數(shù)據(jù)庫(kù)

根據(jù)物種,選擇需要作為參考的數(shù)據(jù)庫(kù),建議下載到本地后上傳至服務(wù)器,直接使用wget命令下載可能會(huì)有問(wèn)題。

2. 解壓縮

命令:tar zxf [壓縮文件路徑] -C [目標(biāo)路徑]

目標(biāo)路徑:~/busco_downloads/lineages

以真菌數(shù)據(jù)庫(kù)為例,解壓后文件名為【fungi_odb10】,必須解壓至默認(rèn)路徑【busco_downloads/lineages】中,不然后續(xù)會(huì)報(bào)錯(cuò),解壓縮后數(shù)據(jù)庫(kù)中內(nèi)容如下:

3. 運(yùn)行BUSCO程序

3.1 常規(guī)運(yùn)行

常規(guī)命令:busco -i [輸入文件] -l [數(shù)據(jù)庫(kù)] -o [輸出文件名] -m [genome]

實(shí)例:busco?-i?genome/data/genome.fasta?-l?fungi_odb10?-o?busco_output?-m?genome?

-i or --in 輸入文件,可以核酸、蛋白或轉(zhuǎn)錄組的fasta文件

-l or --lineage_dataset 比對(duì)的參考數(shù)據(jù)庫(kù),可以是程序中固定的名稱(chēng)【即下載解壓后參考數(shù)據(jù)庫(kù)的默認(rèn)名,推薦】

-o or --out 輸出文件

-m or --mode 模式:genome, proteins, transcriptome

注:-l 后的參考數(shù)據(jù)庫(kù)不能是路徑?。?!-l 的默認(rèn)路徑是【busco_downloads/lineages】


3.2 運(yùn)行聯(lián)網(wǎng)可能會(huì)由于網(wǎng)絡(luò)問(wèn)題導(dǎo)致運(yùn)行出錯(cuò),推薦選擇離線運(yùn)行。

離線運(yùn)行:busco -i [輸入文件] -l [數(shù)據(jù)庫(kù)] -o [輸出文件名] -m [genome]?--offline 【推薦】

實(shí)例:busco?-i?genome/data/genome.fasta?-l?fungi_odb10?-o?busco_output?-m?genome? --offline?


3.3 萬(wàn)無(wú)一失版本,離線+后臺(tái)運(yùn)行

后臺(tái)運(yùn)行:nohup?busco -i [輸入文件] -l [數(shù)據(jù)庫(kù)] -o [輸出文件名] -m [genome]?--offline?>busco_test.log?2>&1?&

實(shí)例:nohup?busco?-i?genome/data/genome.fasta?-l?fungi_odb10?-o?busco_output?-m?genome? --offline?>busco_test.log?2>&1?&

等待運(yùn)行結(jié)束即可,可通過(guò)log日志查看運(yùn)行進(jìn)程。

4. 運(yùn)行結(jié)果文件如下

文件夾logs中可查看運(yùn)行過(guò)程,運(yùn)行最終結(jié)果在short_summary.***.txt中,如下

fungi_odb10】真菌數(shù)據(jù)庫(kù)中共有758個(gè)BUSCO groups,測(cè)序基因組中753(99.3%)個(gè)被完整比對(duì)上(包括753個(gè)單拷貝和0個(gè)多拷貝),2個(gè)部分比對(duì)上,3個(gè)完全沒(méi)有比對(duì)上。

通常用 【完整比對(duì)數(shù)量 / 數(shù)據(jù)庫(kù)中的總數(shù)量】比例作為BUSCO的重要結(jié)果,越高說(shuō)明基因組組裝完整性越好,這里是99.3%=753/758。

5. 繪圖

5.1 建議多比對(duì)幾個(gè)數(shù)據(jù)庫(kù),繪圖好看??梢詮摹窘纭俊鹃T(mén)】【綱】【目】【科】水平,尋找busco對(duì)應(yīng)數(shù)據(jù)庫(kù)(但是不一定每個(gè)分類(lèi)水平都有數(shù)據(jù)庫(kù))。

5.2 將所有結(jié)果文件夾中的【short_summary.***.txt】放在一個(gè)新的文件夾中【result】。

5.3?運(yùn)行python "busco/scripts/generate_plot.py" -wd "result"

5.4 【result】文件夾中自動(dòng)生成【busco_figure.R】文件和繪圖結(jié)果。

5.5 在R中運(yùn)行文件【busco_figure.R】,需要安裝ggplot2包才能實(shí)現(xiàn)繪圖??梢詫?duì)文件中的命令進(jìn)行修改實(shí)現(xiàn)個(gè)性化輸出。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容