PGA-Plastid Genome Annotator
Qu X-J, Moore MJ, Li D-Z, Yi T-S. 2019. PGA: a software package for rapid, accurate, and flexible batch annotation of plastomes. Plant Methods 15:50
一、操作環(huán)境配置
1、Windows、Linux、Mac操作系統(tǒng)都可以
2、安裝Perl 5編程語言
(1)Windows系統(tǒng)下推薦下載ActivePerl或者Strawberry Perl。
(2)Linux系統(tǒng)下Perl 5安裝步驟。
(3)Mac系統(tǒng)下Perl 5安裝步驟。
3、安裝本地Blast最新版本
(1)Windows系統(tǒng)可以安裝ncbi-blast-2.9.0+-win64.exe。
根據(jù)說明直接安裝,自動加入到環(huán)境變量。
(2)Linux系統(tǒng)可以安裝ncbi-blast-2.9.0+-x64-linux.tar.gz,Mac系統(tǒng)可以安裝ncbi-blast-2.9.0+-x64-macosx.tar.gz。
通過以下命令加入到環(huán)境變量。
vim ~/.bashrc
export PATH=/xxx/xxx/blast-2.9.0+/bin:$PATH
source ~/.bashrc
安裝完本地Blast之后在命令行輸入以下命令檢測安裝是否成功。
blastn -version
4、安裝PGA
(1)Windows系統(tǒng)下直接下載,解壓后直接運行。
(2)Linux系統(tǒng)和Mac系統(tǒng)下可以用以下命令下載,加入環(huán)境變量,并使腳本PGA.pl處于可讀可寫可執(zhí)行狀態(tài)。
git clone https://github.com/quxiaojian/PGA.git
vim ~/.bashrc
export PATH=/xxx/xxx/PGA:$PATH
source ~/.bashrc
chmod a+rwx PGA.pl
通過以下命令測試PGA安裝是否成功。
perl PGA.pl
如果安裝成功則出現(xiàn)以下使用信息,展示每個參數(shù)的賦值介紹。
Usage:
PGA.pl -r -t [-i -p -q -o -f -l]
Copyright (C) 2019 Xiao-Jian Qu
Please contact <quxiaojian@sdnu.edu.cn>, if you have any bugs or questions.
[-h -help] help information.
[-r -reference] required: (default: reference) input directory name containing GenBank-formatted file(s) that from the same or close families.
[-t -target] required: (default: target) input directory name containing FASTA-formatted file(s) that will be annotated.
[-i -ir] optional: (default: 1000) minimum allowed inverted-repeat (IR) length.
[-p -pidentity] optional: (default: 40) any PCGs with a TBLASTN percent identity less than this value will be listed in the log file and
will not be annotated.
[-q -qcoverage] optional: (default: 0.5,2) any PCGs with a query coverage per annotated PCG less or greater than each of these two values (<1,>1)
will be listed in the log file.
[-o -out] optional: (default: gb) output directory name.
[-f -form] optional: (default: circular) circular or linear form for FASTA-formatted file.
[-l -log] optional: (default: warning) log file name containing warning information for annotated GenBank-formatted file(s).
二、測試
PGA軟件包包含兩個例子,一個用Amborella作為參考注釋Rosa,另一個用Zamia作為參考注釋Dioon,可通過以下命令進(jìn)行測試。通常情況下只使用-r和-t兩個必選參數(shù),其它參數(shù)是可選參數(shù),會自動賦予默認(rèn)值,因此下面兩條命令是等價的。如果對可選參數(shù)足夠了解,可以自由調(diào)整可選參數(shù)的賦值。
perl PGA.pl -r test/angiosperms/reference -t test/angiosperms/target
或者
perl PGA.pl -r test/angiosperms/reference -t test/angiosperms/target -i 1000 -p 40 -q 0.5,2 -o gb -f circular -l warning
三、注意事項
1、如何選擇參考?
參考葉綠體基因組的注釋質(zhì)量是一個最重要的前提。假設(shè)研究對象是薔薇科,推薦使用軟件包中提供的無油樟(Amborella)作參考注釋薔薇科的一個研究類群,然后根據(jù)log文檔用Geneious整體檢查一下基因的注釋質(zhì)量,再用這兩個類群做參考,一個無油樟,一個薔薇科的類群,來注釋薔薇科的其它類群,分別為了保證注釋基因的數(shù)目完整以及親緣關(guān)系更近。另外,只用薔薇科的這個類群作為參考也可以,前提是能保證自己的參考不缺少基因,否則薔薇科的其它類群注釋完后同樣會缺少基因。
2、能否注釋不完整的葉綠體基因組?
需要人為界定注釋對象的完整程度。假設(shè)注釋對象只是缺少很小一段序列,仍然可以使用完整的葉綠體基因組作為參考進(jìn)行注釋;假設(shè)注釋對象缺少很大一段序列,推薦使用progressiveMauve比對完整的參考葉綠體基因組和不完整的注釋對象,然后截取參考葉綠體基因組中共線性的區(qū)段作為新的參考來注釋不完整的注釋對象。
3、能否注釋異養(yǎng)植物的葉綠體基因組?
假設(shè)注釋對象是丟失部分基因的異養(yǎng)植物,仍然可以用完整的葉綠體基因組作為參考進(jìn)行注釋。針對假基因,PGA提供了判斷的參數(shù)-q,即注釋基因的長度與參考基因的長度之間的比值,閾值的選擇會影響假基因的判斷,需要根據(jù)log文檔以及參考葉綠體基因組仔細(xì)檢查假基因的存在情況。