OMArk依賴于查詢蛋白質(zhì)組和生命樹中預(yù)先計(jì)算的基因家族之間的快速、無(wú)比對(duì)的序列比較,可評(píng)估整個(gè)基因庫(kù)相對(duì)于密切相關(guān)物種的完整性和一致性。與BUSCO軟件相比,OMArk可以同時(shí)量化編碼基因庫(kù)存在的基因缺失、基因模型定義不準(zhǔn)確、非編碼序列錯(cuò)誤等。OMArk引入了兩套評(píng)價(jià)體系,可以進(jìn)行基因組完整性(Completeness)和一致性(Consistency)評(píng)價(jià),可以獲得更清晰的注釋質(zhì)量圖片。
文章來(lái)源:Nature Biotechnology在線發(fā)表論文:Quality assessment of gene repertoire annotations with OMArk,描述了一個(gè)用于評(píng)估蛋白質(zhì)編碼基因注釋質(zhì)量的OMArk軟件包
軟件地址
https://github.com/DessimozLab/OMArk
軟件安裝
conda install -c bioconda omark
軟件使用
export PATH=/share/nas1/pengzw/software/anaconda3/2023.09/envs/omark_0.3.0/bin:$PATH
source /share/nas1/pengzw/software/anaconda3/2023.09/bin/activate
conda activate omark_0.3.0
omamer search --db LUCA.h5 --query /share/nas1/pengzw/database/Arabidopsis_thaliana/Col-PEK1.5/pep.fa --out pep.fa.db
mkdir output1
#第一次運(yùn)行需要網(wǎng)連接ncbi下載
omark -f pep.fa.db -d LUCA.h5 -o output1
plot_all_results.py -i output -o fig.png