葉綠體基因組注釋軟件PGA使用說明

PGA-Plastid Genome Annotator

Qu X-J, Moore MJ, Li D-Z, Yi T-S. 2019. PGA: a software package for rapid, accurate, and flexible batch annotation of plastomes. Plant Methods 15:50

一、操作環(huán)境配置

1、Windows、Linux、Mac操作系統(tǒng)都可以
2、安裝Perl 5編程語言
(1)Windows系統(tǒng)下推薦下載ActivePerl或者Strawberry Perl
(2)Linux系統(tǒng)下Perl 5安裝步驟。
(3)Mac系統(tǒng)下Perl 5安裝步驟。
3、安裝本地Blast最新版本
(1)Windows系統(tǒng)可以安裝ncbi-blast-2.9.0+-win64.exe。
根據(jù)說明直接安裝,自動加入到環(huán)境變量。
(2)Linux系統(tǒng)可以安裝ncbi-blast-2.9.0+-x64-linux.tar.gz,Mac系統(tǒng)可以安裝ncbi-blast-2.9.0+-x64-macosx.tar.gz。
通過以下命令加入到環(huán)境變量。

vim ~/.bashrc
export PATH=/xxx/xxx/blast-2.9.0+/bin:$PATH
source ~/.bashrc

安裝完本地Blast之后在命令行輸入以下命令檢測安裝是否成功。

blastn -version

4、安裝PGA
(1)Windows系統(tǒng)下直接下載,解壓后直接運行。
(2)Linux系統(tǒng)和Mac系統(tǒng)下可以用以下命令下載,加入環(huán)境變量,并使腳本PGA.pl處于可讀可寫可執(zhí)行狀態(tài)。

git clone https://github.com/quxiaojian/PGA.git
vim ~/.bashrc
export PATH=/xxx/xxx/PGA:$PATH
source ~/.bashrc
chmod a+rwx PGA.pl

通過以下命令測試PGA安裝是否成功。

perl PGA.pl

如果安裝成功則出現(xiàn)以下使用信息,展示每個參數(shù)的賦值介紹。

Usage:
    PGA.pl -r -t [-i -p -q -o -f -l]
    Copyright (C) 2019 Xiao-Jian Qu
    Please contact <quxiaojian@sdnu.edu.cn>, if you have any bugs or questions.

    [-h -help]         help information.
    [-r -reference]    required: (default: reference) input directory name containing GenBank-formatted file(s) that from the same or close families.
    [-t -target]       required: (default: target) input directory name containing FASTA-formatted file(s) that will be annotated.
    [-i -ir]           optional: (default: 1000) minimum allowed inverted-repeat (IR) length.
    [-p -pidentity]    optional: (default: 40) any PCGs with a TBLASTN percent identity less than this value will be listed in the log file and
                       will not be annotated.
    [-q -qcoverage]    optional: (default: 0.5,2) any PCGs with a query coverage per annotated PCG less or greater than each of these two values (<1,>1)
                       will be listed in the log file.
    [-o -out]          optional: (default: gb) output directory name.
    [-f -form]         optional: (default: circular) circular or linear form for FASTA-formatted file.
    [-l -log]          optional: (default: warning) log file name containing warning information for annotated GenBank-formatted file(s).

二、測試

PGA軟件包包含兩個例子,一個用Amborella作為參考注釋Rosa,另一個用Zamia作為參考注釋Dioon,可通過以下命令進(jìn)行測試。通常情況下只使用-r和-t兩個必選參數(shù),其它參數(shù)是可選參數(shù),會自動賦予默認(rèn)值,因此下面兩條命令是等價的。如果對可選參數(shù)足夠了解,可以自由調(diào)整可選參數(shù)的賦值。

perl PGA.pl -r test/angiosperms/reference -t test/angiosperms/target

或者

perl PGA.pl -r test/angiosperms/reference -t test/angiosperms/target -i 1000 -p 40 -q 0.5,2 -o gb -f circular -l warning

三、注意事項

1、如何選擇參考?
參考葉綠體基因組的注釋質(zhì)量是一個最重要的前提。假設(shè)研究對象是薔薇科,推薦使用軟件包中提供的無油樟(Amborella)作參考注釋薔薇科的一個研究類群,然后根據(jù)log文檔用Geneious整體檢查一下基因的注釋質(zhì)量,再用這兩個類群做參考,一個無油樟,一個薔薇科的類群,來注釋薔薇科的其它類群,分別為了保證注釋基因的數(shù)目完整以及親緣關(guān)系更近。另外,只用薔薇科的這個類群作為參考也可以,前提是能保證自己的參考不缺少基因,否則薔薇科的其它類群注釋完后同樣會缺少基因。
2、能否注釋不完整的葉綠體基因組?
需要人為界定注釋對象的完整程度。假設(shè)注釋對象只是缺少很小一段序列,仍然可以使用完整的葉綠體基因組作為參考進(jìn)行注釋;假設(shè)注釋對象缺少很大一段序列,推薦使用progressiveMauve比對完整的參考葉綠體基因組和不完整的注釋對象,然后截取參考葉綠體基因組中共線性的區(qū)段作為新的參考來注釋不完整的注釋對象。
3、能否注釋異養(yǎng)植物的葉綠體基因組?
假設(shè)注釋對象是丟失部分基因的異養(yǎng)植物,仍然可以用完整的葉綠體基因組作為參考進(jìn)行注釋。針對假基因,PGA提供了判斷的參數(shù)-q,即注釋基因的長度與參考基因的長度之間的比值,閾值的選擇會影響假基因的判斷,需要根據(jù)log文檔以及參考葉綠體基因組仔細(xì)檢查假基因的存在情況。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容