RepeatModeler和RepeatMasker注釋昆蟲基因組

一、工具簡介

? ? ? ? ?重復(fù)序列注釋是基因組分析的關(guān)鍵步驟,對基因預(yù)測、進(jìn)化研究及功能注釋至關(guān)重要。RepeatModeler 用于從頭構(gòu)建物種特異性重復(fù)序列數(shù)據(jù)庫,而 RepeatMasker 基于此數(shù)據(jù)庫屏蔽或標(biāo)記重復(fù)序列。這對非模式昆蟲基因組(如新測序物種)尤其重要,可避免依賴通用數(shù)據(jù)庫(如RepBase)的局限性。

二、軟件安裝

1. 依賴環(huán)境準(zhǔn)備

? ? ? ? ?Perl與Python:確保系統(tǒng)已安裝Perl(≥5.8.8)和Python 3,并安裝必要模塊:

? ? ? ? ?cpan install Text::Soundex? # Perl模塊

? ? ? ? ?pip install h5py numpy? ? ? # Python模塊

? ? ? ? ?依賴工具:需提前安裝以下工具并配置環(huán)境變量:

? ? ? ? ?TRF(串聯(lián)重復(fù)查找工具):通過GitHub下載編譯

? ? ? ? ?RMBlast(比對引擎):下載預(yù)編譯包解壓即可

? ? ? ? ?RECON & RepeatScout(從頭預(yù)測核心組件):通過Conda或源碼安裝

? ? ? ? ?LTR_retriever(LTR元件識(shí)別):GitHub下載編譯

2. RepeatModeler安裝

從官網(wǎng)下載源碼包并配置依賴路徑:

? ? ? ? ?wget http://repeatmasker.org/RepeatModeler/RepeatModeler-2.0.4.tar.gz

? ? ? ? ?tar -xzvf RepeatModeler-2.0.4.tar.gz

? ? ? ? ?cd RepeatModeler-2.0.4

? ? ? ? ?perl ./configure? # 交互式配置TRF、RMBlast等路徑

? ? ? ? ?export PATH=$PATH:/path/to/RepeatModeler/bin

3. RepeatMasker安裝

? ? ? ? ?下載并配置RepeatMasker,鏈接自定義數(shù)據(jù)庫:

? ? ? ? ?wget http://repeatmasker.org/RepeatMasker/RepeatMasker-4.1.4.tar.gz

? ? ? ? ?tar -xzvf RepeatMasker-4.1.4.tar.gz

? ? ? ? ?./configure? ? ? ? # 指定TRF、RMBlast路徑及引擎

三、運(yùn)行流程

1. 構(gòu)建自定義重復(fù)序列庫

?Step 1: 創(chuàng)建基因組數(shù)據(jù)庫

? ? ? ? ?BuildDatabase -name InsectDB -engine ncbi insect_genome.fasta

Step 2: 運(yùn)行RepeatModeler(比較耗時(shí))

? ? ? ? ?nohup RepeatModeler -database InsectDB? --engine ncbi -pa 32 -LTRStruct > modeler.log 2>&1

關(guān)鍵參數(shù):

-pa 32:使用32線程加速

-LTRStruct:啟用LTR結(jié)構(gòu)預(yù)測

輸出文件:生成 InsectDB-families.fa(分類庫)和 InsectDB-families.stk(種子聯(lián)配文件)

2. 重復(fù)序列屏蔽與注釋

Step 1: 整合自定義庫與公共庫(這一步很關(guān)鍵,如果注釋結(jié)果不好,需要聯(lián)合LTR_retriever單獨(dú)尋找的Ltr重復(fù)序列庫)

? ? ? ? ?cat InsectDB-families.fa RepeatMasker/Libraries/RepBase/insect_repeats.fa > combined_lib.fa

Step 2: 運(yùn)行RepeatMasker

? ? ? ? ?RepeatMasker -e rmblast -pa 16 -xsmall -lib combined_lib.fa -dir output insect_genome.fasta

? ? ? ? ?-xsmall? ?這個(gè)參數(shù)表示軟屏蔽,一般為了后續(xù)結(jié)構(gòu)注釋,選擇軟屏蔽? ?結(jié)果如下? ?(400Mb的昆蟲基因組一套下來約2天)


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容