一、工具簡介
? ? ? ? ?重復(fù)序列注釋是基因組分析的關(guān)鍵步驟,對基因預(yù)測、進(jìn)化研究及功能注釋至關(guān)重要。RepeatModeler 用于從頭構(gòu)建物種特異性重復(fù)序列數(shù)據(jù)庫,而 RepeatMasker 基于此數(shù)據(jù)庫屏蔽或標(biāo)記重復(fù)序列。這對非模式昆蟲基因組(如新測序物種)尤其重要,可避免依賴通用數(shù)據(jù)庫(如RepBase)的局限性。
二、軟件安裝
1. 依賴環(huán)境準(zhǔn)備
? ? ? ? ?Perl與Python:確保系統(tǒng)已安裝Perl(≥5.8.8)和Python 3,并安裝必要模塊:
? ? ? ? ?cpan install Text::Soundex? # Perl模塊
? ? ? ? ?pip install h5py numpy? ? ? # Python模塊
? ? ? ? ?依賴工具:需提前安裝以下工具并配置環(huán)境變量:
? ? ? ? ?TRF(串聯(lián)重復(fù)查找工具):通過GitHub下載編譯
? ? ? ? ?RMBlast(比對引擎):下載預(yù)編譯包解壓即可
? ? ? ? ?RECON & RepeatScout(從頭預(yù)測核心組件):通過Conda或源碼安裝
? ? ? ? ?LTR_retriever(LTR元件識(shí)別):GitHub下載編譯
2. RepeatModeler安裝
從官網(wǎng)下載源碼包并配置依賴路徑:
? ? ? ? ?wget http://repeatmasker.org/RepeatModeler/RepeatModeler-2.0.4.tar.gz
? ? ? ? ?tar -xzvf RepeatModeler-2.0.4.tar.gz
? ? ? ? ?cd RepeatModeler-2.0.4
? ? ? ? ?perl ./configure? # 交互式配置TRF、RMBlast等路徑
? ? ? ? ?export PATH=$PATH:/path/to/RepeatModeler/bin
3. RepeatMasker安裝
? ? ? ? ?下載并配置RepeatMasker,鏈接自定義數(shù)據(jù)庫:
? ? ? ? ?wget http://repeatmasker.org/RepeatMasker/RepeatMasker-4.1.4.tar.gz
? ? ? ? ?tar -xzvf RepeatMasker-4.1.4.tar.gz
? ? ? ? ?./configure? ? ? ? # 指定TRF、RMBlast路徑及引擎
三、運(yùn)行流程
1. 構(gòu)建自定義重復(fù)序列庫
?Step 1: 創(chuàng)建基因組數(shù)據(jù)庫
? ? ? ? ?BuildDatabase -name InsectDB -engine ncbi insect_genome.fasta
Step 2: 運(yùn)行RepeatModeler(比較耗時(shí))
? ? ? ? ?nohup RepeatModeler -database InsectDB? --engine ncbi -pa 32 -LTRStruct > modeler.log 2>&1
關(guān)鍵參數(shù):
-pa 32:使用32線程加速
-LTRStruct:啟用LTR結(jié)構(gòu)預(yù)測
輸出文件:生成 InsectDB-families.fa(分類庫)和 InsectDB-families.stk(種子聯(lián)配文件)
2. 重復(fù)序列屏蔽與注釋
Step 1: 整合自定義庫與公共庫(這一步很關(guān)鍵,如果注釋結(jié)果不好,需要聯(lián)合LTR_retriever單獨(dú)尋找的Ltr重復(fù)序列庫)
? ? ? ? ?cat InsectDB-families.fa RepeatMasker/Libraries/RepBase/insect_repeats.fa > combined_lib.fa
Step 2: 運(yùn)行RepeatMasker
? ? ? ? ?RepeatMasker -e rmblast -pa 16 -xsmall -lib combined_lib.fa -dir output insect_genome.fasta
? ? ? ? ?-xsmall? ?這個(gè)參數(shù)表示軟屏蔽,一般為了后續(xù)結(jié)構(gòu)注釋,選擇軟屏蔽? ?結(jié)果如下? ?(400Mb的昆蟲基因組一套下來約2天)
