12年有篇BMC的文獻(xiàn)對幾款預(yù)測的軟件做了評估,其實(shí)參考大多數(shù)的文獻(xiàn)中最常見的倆個(gè)軟件也就是Prodigal和Metagenemark這倆個(gè)軟件,分析過程中我這倆個(gè)軟件都感受一下,現(xiàn)在將過程記錄一下~~有興趣的話可以看看這篇文獻(xiàn)哦

MetageneMark

選擇圖中該版本,下面紅*的選項(xiàng)填寫完畢后,點(diǎn)擊下方agree

跳出來該頁面后,就可以選擇下載了,上面是軟件,下面是個(gè)64位的key,也需要下載,這個(gè)key會有期限,時(shí)間到了再進(jìn)該網(wǎng)站重新下載下即可,我們將其放在軟件目錄下

接著操作
gunzip gm_key64.gz
mv gm_key64 gm_key (重命名)
拷貝權(quán)限:cp gm_key ~/.gm_key
現(xiàn)在就可以使用了,就是gmhmmp這個(gè)軟件,用軟件前先看下它的幫助文檔,了解下參數(shù)的意義,我常用的命令行如下
gmhmmp -a -d -m MetaGeneMark_v1.mod final.contigs.fa -A protein.fasta -D nucleotide.fasta
-A 輸出蛋白 -D輸出CDS核酸序列,另外還有-f 可以控制輸出gff文件,請自行了解.

感覺這個(gè)軟件輸出的結(jié)果不太友好,一是fa文件的ID有太多沒用的信息,二是每個(gè)基因上的不同CDS名字竟然一樣,至少給個(gè)1、 2區(qū)分一下吧,這里我想到了最近學(xué)的一個(gè)大神寫的軟件seqkit里的rename,大家可以去看下這個(gè)軟件教程,地址里面的各個(gè)子軟件真的能幫助走不少的彎路。先操作一下:
less F1_genemark.txt |sed '/^$/d;s/.*\t//g;s/ .*//g'|seqkit rename|sed 's/ .*//' |less

這樣看上去就好多了,但是強(qiáng)迫癥的我發(fā)現(xiàn)每個(gè)基因的第一個(gè)ID后面沒有_1,只是從第二個(gè)相同的ID后開始加上了_2,3標(biāo)識符進(jìn)行了區(qū)分,所有我就寫了個(gè)python小腳本改動(dòng)一下,很簡單思路就是ID里面如果只有一個(gè)符號的,ID后面加個(gè)1,^^shell還不是太精,如果有啥方法直接shell后面加幾句改的話,可以告訴我??傊詈髽幼泳褪沁@樣

軟件輸出的fa是多行的,這里改成單行看著舒服點(diǎn),好了接下來拿著這個(gè)文件進(jìn)行后續(xù)分析了。
Prodigal
這個(gè)軟件是我最開始用的,因?yàn)樗慕Y(jié)果輸出就比較友好,不用像上面那樣再多余的步驟??聪螺敵鑫募臉幼?div id="u0z1t8os" class="image-package">