基因結(jié)構(gòu)注釋(1):從頭注釋

前言

最近的推文將是一個(gè)大系列,目錄就不放了,可能會(huì)有點(diǎn)多,主要涉及了基因注釋,比較基因組學(xué)分析,基因家族分析等,大家看我博客的順序就行。

基因注釋參考鏈接(不得不說州更大神真的是植物生信方面的專家了)

基因注釋主要有三種策略

從頭注釋(de novo prediction):通過已有的概率模型來(lái)預(yù)測(cè)基因結(jié)構(gòu),在預(yù)測(cè)剪切位點(diǎn)和UTR區(qū)準(zhǔn)確性較低

同源預(yù)測(cè)(homology-based prediction):有一些基因蛋白在相近物種間的保守型搞,所以可以使用已有的高質(zhì)量近緣物種注釋信息通過序列聯(lián)配的方式確定外顯子邊界和剪切位點(diǎn)

基于轉(zhuǎn)錄組預(yù)測(cè)(transcriptome-based prediction):通過物種的RNA-seq數(shù)據(jù)輔助注釋,能夠較為準(zhǔn)確的確定剪切位點(diǎn)和外顯子區(qū)域。

每一種方法都有自己的優(yōu)缺點(diǎn),所以最后需要用EvidenceModeler(EVM)和GLEAN工具進(jìn)行整合,合并成完整的基因結(jié)構(gòu)?;诳煽康幕蚪Y(jié)構(gòu),后續(xù)可才是功能注釋,蛋白功能域注釋,基因本體論注釋,通路注釋等。

在注釋之前需要對(duì)重復(fù)序列進(jìn)行屏蔽,可以參考我之前的推文:repeatmasker的安裝與使用

從頭注釋

可以看到在該文獻(xiàn)中從頭注釋使用的是augustus和GlimmerHMM

augustus根據(jù)已有模型訓(xùn)練

AUGUSTUS的無(wú)root安裝比較麻煩,我折騰了好幾天最后卒,不過辛虧有bioconda,conda create -n annotation augustus=3.3

我這次預(yù)測(cè)的基因是一種擔(dān)子菌,可以使用augustus --species=help查看已有的物種,在本次分析中,我使用laccaria_bicolor作為已有的模型(pudorinus.mask.fa是去除重復(fù)序列的基因組序列)

augustus --species=laccaria_bicolor pudorinus.mask.fa > pudorinus.gff

如果嫌慢,可以試一下并行策略

seqkit split pudorinus.mask.fa
find pudorinus.mask.fa.split/ -type f -name "*.fa" | parallel -j 30 augustus --species=arabidopsis --gff3=on >> temp.gff #并行處理
join_aug_pred.pl < temp.gff  | grep -v '^#' > temp.joined.gff
bedtools sort -i temp.joined.gff > pudorinus.augustus.gff

無(wú)監(jiān)督訓(xùn)練模型

GeneMark-ES/ET則是唯一一款支持無(wú)監(jiān)督訓(xùn)練模型,之后再識(shí)別真核基因組蛋白編碼區(qū)的工具。

wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_Qg87n/gm_et_linux_64.tar.gz
tar xf gm_et_linux_64.tar.gz
mv gm_et_linux_64/gmes_petap/ /datadisk02/soft
wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_Qg87n/gm_key_64.gz
gzip -dc gm_key_64.gz > ~/.gm_key
cpan YAML Hash::Merge Logger::Simple Parallel::ForkManager
echo "export PATH=$PATH:/datadisk02/soft/gmes_petap/" >> ~/.bashrc

安裝之后進(jìn)行預(yù)測(cè)

gmes_petap.pl --ES --sequence pudorinus.mask.fa --cores 50

最后得到的是genemark.gtf,是標(biāo)準(zhǔn)的GTF格式,可以使用gffread轉(zhuǎn)換

gffread genemark.gtf -o- > pudorinus.genemarkes.gff3

從頭注釋已經(jīng)完成,接下來(lái)的是同源與轉(zhuǎn)錄組。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 基因組組裝完成后,或者是完成了草圖,就不可避免遇到一個(gè)問題,需要對(duì)基因組序列進(jìn)行注釋。注釋之前首先得構(gòu)建基因模型,...
    xuzhougeng閱讀 52,876評(píng)論 14 185
  • 1. 組裝基因組質(zhì)控 得到組裝好的基因組序列之后,首先要使用多種方法評(píng)估組裝質(zhì)量。這里用到2款可用于基因組組裝質(zhì)量...
    扇子和杯子閱讀 14,581評(píng)論 1 52
  • 基因組注釋主要包括四個(gè)方面: 重復(fù)序列識(shí)別 序列比對(duì)方法 RepeatScout、LTR-finder、T...
    陳洪瑜閱讀 4,358評(píng)論 0 22
  • 基因組注釋(Genome annotation) 是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通...
    xiaosine閱讀 44,415評(píng)論 1 65
  • 準(zhǔn)備階段 訓(xùn)練SNAP模型,需要準(zhǔn)備三個(gè)文件,分別是參考基因組序列,組裝的轉(zhuǎn)錄本序列和同源蛋白序列。 對(duì)于參考基因...
    xuzhougeng閱讀 4,874評(píng)論 2 12

友情鏈接更多精彩內(nèi)容