Kaks_calculator計(jì)算ka/ks 值

kaks_calculator可用來(lái)計(jì)算ka,ks值,后續(xù)可計(jì)算分化時(shí)間點(diǎn)等。

安裝

安裝ParaAT

在安裝kaks_calculator 之前安裝比對(duì)軟件paraAT,該軟件是由中科院基因組所張章課題組開(kāi)發(fā),它整合了計(jì)算ka/ks所需的一整套分析的,包括:

  • 蛋白序列比對(duì)(可選clustalw2 | t_coffee | mat | muscle)
  • 根據(jù)蛋白比對(duì)結(jié)果回譯成codon對(duì)應(yīng)的核酸比對(duì)結(jié)果
  • 計(jì)算kaks值

點(diǎn)擊進(jìn)行下載ParaAT

tar -xf ParaAT2.0.tar

\color{red}{ParaAT.pl}就是運(yùn)行的腳本

安裝Kaks_calculator

點(diǎn)擊進(jìn)行下載
減壓后,給權(quán)限即可

cd KaKs_Calculator2.0/bin/Linux
chmod 744 KaKs_Calculator

簡(jiǎn)單流程

推介使用muscle,比對(duì)速度快,效果好

準(zhǔn)備輸入文件:

  • test.homologs: 同源基因?qū)?/li>
  • test.cds: 同源基因?qū)旱腸ds序列
  • test.pep:同源基因?qū)旱膒ep序列
  • proc:線程數(shù)
    以上文件均可在ParaAT文件夾中找到,可做參考

運(yùn)行腳本

ParaAT.pl -h test.homologs -n test.cds -a test.pep -p proc -m muscle -f axt -g -k -o result_dir

-h, 同源基因名稱(chēng)文件
-n, 指定核酸序列文件
-a, 指定蛋白序列文件
-p, 指定多線程文件
-m, 指定比對(duì)工具
-g, 去除比對(duì)有g(shù)ap的密碼子
-k, 用KaKs_Calculator 計(jì)算kaks值
-o, 輸出結(jié)果的目錄
-f, 輸出比對(duì)文件的格式
*** 也可通過(guò)-f參數(shù)得到其他軟件分析ka/k所需的格式

上述結(jié)果可直接得到每一對(duì)同源基因的ka,ks值,可通過(guò)如下命令將其整合

cat  ./result_dir/*.kaks | cut -f 1,2,3,4,5 |grep -v 'Sequence' | less -S
Sequence  Method  Ka  Ks  Ka/Ks  
NP_000005-NP_783327 MA  0.179102    0.653246    3.64734
NP_000006-NP_032699 MA  0.186375    0.642372    3.44666
NP_000008-NP_031409 MA  0.0501752   0.706062    14.0719

可將其整合在一個(gè)python腳本

根據(jù)上述流程將其整合為一python腳本\color{red}{process_ka_ks.py}

process_ka_ks.py -r

Options:
Options:
  -h, --help            show this help message and exit
  -c CDS, --cds=CDS     Input cds sequence files.(required)
  -p PEP, --protein =PEP
                        Input pep sequence files.(required)
  -H HOMO, --Homologs genes=HOMO
                        Input homologs genes files.(required)
  -o OUT, --output name=OUT
                        output name.(required)
  -t PROCESS, --number of processors=PROCESS
                        Input the number of processors (INT).(required)

輸入全基因組的pep,cds文件即可,根據(jù)同源基因?qū)鹤詣?dòng)調(diào)取相應(yīng)基因并整理成ParaAT所需要的格式。

參考

  • Zhang, Z., Xiao, J., Wu, J., Zhang, H., Liu, G., Wang, X. and Dai, L. (2012) ParaAT: A parallel tool for constructing multiple protein-coding DNA alignments, Biochem Biophys Res Commun, 419(4):779-7
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容