宏病毒組(四)|病毒注釋軟件介紹

宏病毒組直接以樣本中所有病毒的遺傳物質(zhì)為研究對象,快速鑒定樣本中所有的病毒組成。測序數(shù)據(jù)的組裝及病毒的分類注釋直接影響項(xiàng)目分析結(jié)果的準(zhǔn)確性。在上篇推文中小編給大家詳細(xì)介紹了組裝軟件——Megahit超詳細(xì)安裝及應(yīng)用教程,接下來給大家介紹2款常見的病毒分類注釋軟件。

1.PhaGCN2軟件

PhaGCN2可以在科水平上快速對病毒序列進(jìn)行分類,并支持網(wǎng)絡(luò)圖來可視化結(jié)果文件。軟件鏈接:https://github.com/KennthShang/PhaGCN2.0。其特點(diǎn)是:

(1)使用prodigal在整個病毒領(lǐng)域下構(gòu)建參考數(shù)據(jù)庫

為了建立更快捷、更方便用戶的數(shù)據(jù)庫構(gòu)建管道,應(yīng)用Prodigal基于最新的ICTV2021數(shù)據(jù)庫進(jìn)行了蛋白翻譯(最新的ICTV2021包含10550個病毒)。使用DOV (Dataset of Oyster Virome)中的8760個病毒序列(length>8000bp)作為測試序列,將使用Prodigal構(gòu)建的數(shù)據(jù)庫的PhaGCN2與原始PhaGCN數(shù)據(jù)庫進(jìn)行比較,結(jié)果顯示98.46%的預(yù)測結(jié)果是一致的。用戶可以通過訓(xùn)練PhaGCN2中的病毒分類數(shù)據(jù)庫的功能,將分類與ICTV批準(zhǔn)的分類進(jìn)行對齊。

(2)使用網(wǎng)絡(luò)圖來識別離群點(diǎn),將離群節(jié)點(diǎn)分配給family_like

PhaGCN2能夠自動識別新的科,從而消除了常用監(jiān)督學(xué)習(xí)模型中對固定標(biāo)簽集的限制。PhaGCN2也可以輸出病毒簇集群網(wǎng)絡(luò),方便用戶對不同病毒科和病毒科成員之間的關(guān)系有直觀的了解。除了將科與科之間的關(guān)系可視化,使用網(wǎng)絡(luò)拓?fù)鋪碜R別可能的新科,這些新科由與ICTV節(jié)點(diǎn)弱連接的子圖組成。首先,識別離群點(diǎn)——沒有連接到ICTV中的任何病毒的測試病毒(節(jié)點(diǎn))(圖1,紅點(diǎn))。通常這些異常值來自新的科,但由于監(jiān)督學(xué)習(xí)算法的設(shè)計(jì)限制,它們被分配到family_like。

圖1?引入“family_like“前后的網(wǎng)絡(luò)圖對比?

PhaGCN2也存在不足,如對于那些沒有相似度或相似度很低的“暗物質(zhì)”序列,進(jìn)行從頭病毒分類可能是一項(xiàng)不可能的任務(wù)。首先,無法評估預(yù)測的準(zhǔn)確性;其次,沒有任何同源物,很難描述它們基因組的結(jié)構(gòu)或功能;無論確定了多少個序列,它們?nèi)匀皇恰鞍滴镔|(zhì)”。

另外由于PhaGCN2不能預(yù)測輸入序列是屬于病毒還是宿主細(xì)胞,應(yīng)用PhaGCN2之前,應(yīng)先使用病毒識別工具(如DIAMOND、Virsorter2等)去除非病毒序列。

2.vConTACT2

vConTACT v.2.0是一個基于網(wǎng)絡(luò)的應(yīng)用程序,利用全基因組共享基因進(jìn)行病毒分類,它集成了基于距離的層次分類和所分類預(yù)測的置信度評分。軟件鏈接:https://bitbucket.org/MAVERICLab/vcontact2/wiki/Home。

vConTACT(v.1.0)的目標(biāo)是自動將病毒基因組分配到已建立的或新的分類單元中,并評估與ICTV分類一致性(圖2)。然而,在目前的ICTV原核病毒分類中,屬級以上的分類零星的用于亞科和目,因此該應(yīng)用特別強(qiáng)調(diào)病毒在屬水平分類。

在一個基于網(wǎng)絡(luò)的基因組分類學(xué)中(圖2a),相關(guān)基因組作為一組節(jié)點(diǎn)出現(xiàn),通過病毒簇多邊強(qiáng)烈相關(guān)性連接。在v.1.0版本中,約75%的病毒簇與已建立的ICTV屬相對應(yīng),但存在約25%不一致。病毒簇的不一致可能由于抽樣不足導(dǎo)致的聚類基因組沒有近緣屬,或者多個具有相同基因的ICTV屬的不正確重疊,亦或者多個ICTV屬錯誤的分配到一個結(jié)構(gòu)化的病毒簇(圖2b)。

為了解決這些問題,vConTACT v.2.0使用了一種新的聚類算法,為分級分類建立基于置信度評分和距離的分類分離單元,并使用一個大規(guī)模病毒宏基因組數(shù)據(jù)集對可擴(kuò)展性和穩(wěn)定性進(jìn)行優(yōu)化和評估??傮w來說,在形成馬爾科夫算法聚類蛋白集成群后,優(yōu)化了蛋白簇,建立了自動化的兩步過程,接著使用ClusterONE(CL1)來定義病毒簇,使用層次聚類對網(wǎng)絡(luò)中有問題的區(qū)域進(jìn)行細(xì)分(圖2a)。

圖2 病毒基因組分類可視化網(wǎng)絡(luò)圖

利用vConTACT v.2.0,可獲得與NCBI中病毒參考序列物種信息幾乎一樣的分類結(jié)果(高達(dá)96%準(zhǔn)確率);對存在于病毒RefSeq中1346個先前未分類的病毒進(jìn)行分類,其中820種自動生成高可信度的屬水平分類。應(yīng)用vConTACT v.2.0分析了15280個全球海洋病毒基因組片段,并且這些數(shù)據(jù)中31%可以進(jìn)行物種分類。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容