前言
最近的推文將是一個(gè)大系列,目錄就不放了,可能會(huì)有點(diǎn)多,主要涉及了基因注釋,比較基因組學(xué)分析,基因家族分析等,大家看我博客的順序就行。
基因注釋參考鏈接(不得不說州更大神真的是植物生信方面的專家了)
基因注釋主要有三種策略
從頭注釋(de novo prediction):通過已有的概率模型來(lái)預(yù)測(cè)基因結(jié)構(gòu),在預(yù)測(cè)剪切位點(diǎn)和UTR區(qū)準(zhǔn)確性較低
同源預(yù)測(cè)(homology-based prediction):有一些基因蛋白在相近物種間的保守型搞,所以可以使用已有的高質(zhì)量近緣物種注釋信息通過序列聯(lián)配的方式確定外顯子邊界和剪切位點(diǎn)
基于轉(zhuǎn)錄組預(yù)測(cè)(transcriptome-based prediction):通過物種的RNA-seq數(shù)據(jù)輔助注釋,能夠較為準(zhǔn)確的確定剪切位點(diǎn)和外顯子區(qū)域。
每一種方法都有自己的優(yōu)缺點(diǎn),所以最后需要用EvidenceModeler(EVM)和GLEAN工具進(jìn)行整合,合并成完整的基因結(jié)構(gòu)?;诳煽康幕蚪Y(jié)構(gòu),后續(xù)可才是功能注釋,蛋白功能域注釋,基因本體論注釋,通路注釋等。
在注釋之前需要對(duì)重復(fù)序列進(jìn)行屏蔽,可以參考我之前的推文:repeatmasker的安裝與使用
從頭注釋

可以看到在該文獻(xiàn)中從頭注釋使用的是augustus和GlimmerHMM
augustus根據(jù)已有模型訓(xùn)練
AUGUSTUS的無(wú)root安裝比較麻煩,我折騰了好幾天最后卒,不過辛虧有bioconda,conda create -n annotation augustus=3.3
我這次預(yù)測(cè)的基因是一種擔(dān)子菌,可以使用augustus --species=help查看已有的物種,在本次分析中,我使用laccaria_bicolor作為已有的模型(pudorinus.mask.fa是去除重復(fù)序列的基因組序列)
augustus --species=laccaria_bicolor pudorinus.mask.fa > pudorinus.gff
如果嫌慢,可以試一下并行策略
seqkit split pudorinus.mask.fa
find pudorinus.mask.fa.split/ -type f -name "*.fa" | parallel -j 30 augustus --species=arabidopsis --gff3=on >> temp.gff #并行處理
join_aug_pred.pl < temp.gff | grep -v '^#' > temp.joined.gff
bedtools sort -i temp.joined.gff > pudorinus.augustus.gff
無(wú)監(jiān)督訓(xùn)練模型
GeneMark-ES/ET則是唯一一款支持無(wú)監(jiān)督訓(xùn)練模型,之后再識(shí)別真核基因組蛋白編碼區(qū)的工具。
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_Qg87n/gm_et_linux_64.tar.gz
tar xf gm_et_linux_64.tar.gz
mv gm_et_linux_64/gmes_petap/ /datadisk02/soft
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_Qg87n/gm_key_64.gz
gzip -dc gm_key_64.gz > ~/.gm_key
cpan YAML Hash::Merge Logger::Simple Parallel::ForkManager
echo "export PATH=$PATH:/datadisk02/soft/gmes_petap/" >> ~/.bashrc
安裝之后進(jìn)行預(yù)測(cè)
gmes_petap.pl --ES --sequence pudorinus.mask.fa --cores 50
最后得到的是genemark.gtf,是標(biāo)準(zhǔn)的GTF格式,可以使用gffread轉(zhuǎn)換
gffread genemark.gtf -o- > pudorinus.genemarkes.gff3
從頭注釋已經(jīng)完成,接下來(lái)的是同源與轉(zhuǎn)錄組。