基因組組裝完成后,需要對基因組進行注釋。對于高等真核生物,由于重復序列占了相當大的比例,會影響基因預測的質量,也會帶來不必要的資源消耗。因此在基因預測前,首先要檢測并屏蔽基因組中的重復序列。
重復序列可分為串聯(lián)重復序列和散在重復序列兩大類。其中串聯(lián)重復序列包括有微衛(wèi)星序列,小衛(wèi)星序列等等。散在重復序列又稱轉座子元件,包括以DNA-DNA方式轉座的DNA轉座子和反轉錄轉座子。常見的反轉錄轉座子類別有LTR,LINE和SINE等。
鑒定基因組重復區(qū)域的方法有兩種:
(1)基于文庫的同源方法(序列比對方法)。----RepeatMasker
(2)從頭預測的方法。----RepeatModeler
基于文庫同源方法將基因組與已知重復序列的數據庫進行同源搜素,識別基因組中的重復序列,準確而快速。但依賴于數據庫本身,只能通過已知特定類型的重復序列尋找相似的區(qū)域,當基因組差異過大,特別是新物種時,很多未知重復序列將難以識別。
從頭預測方法直接從現有的全基因組序列中根據元件的結構或功能特征等訓練模型,構建重復序列集,不依賴于其它數據庫,可以有效識別出新的重復序列結構類型。但是比較費時,且也容易產生錯誤識別。
下面將介紹這兩種軟件的安裝與使用:
1軟件安裝
軟件可以用conda安裝,但是由于服務器不能聯(lián)網的原因,這里我考慮手動安裝。
#1RepeatMasker----重復序列檢測工具,通過與參考數據庫的相似性比對來準確識別或屏蔽基因組中的重復序列。--基于文庫的同源方法。
#(1)RepeatMasker
tar xf RepeatMasker-open-4-0-7.tar.gz
mv RepeatMasker ~/software/
#(2)trf409.linux64
mv trf409.linux64 ~/software/RepeatMasker/trf #移動并重命名為trf
chmod a+x ~/software/RepeatMasker/trf
#(3)RMBlast
cp rmblast-2.10.0+-x64-linux.tar.gz ~/software
cd ~/software
tar zxvf rmblast-2.10.0-x64-linux.tar.gz
rm rmblast-2.10.0-x64-linux.tar.gz
#(4)RepBase----目前官網已經不提供
tar xzvf RepBaseRepeatMaskerEdition-20170127.tar.gz
cd Libraries/
cp README ~/software/RepeatMasker/Libraries
cp RMRBSeqs.embl ~/software/RepeatMasker/Libraries
#注:把Library中的文件移到RepeatMasker/Library
#(5)運行配置腳本
cd ~/software/RepeatMasker
perl ./configure
#note:按提示操作。
#看看能不能運行
./RepeatMasker -h

#2RepeatModeler----重復序列檢測工具,將序列和自己比較或者是高頻K-mer來鑒定重復。--基于從頭預測的方法。
(1)RepeatModeler
tar xf RepeatModeler-open-1.0.11.tar.gz
mv RepeatModeler-open-1.0.11 ~/software
(2)RECON
tar xf RECON-1.08.tar.gz
cd RECON-1.08/src
make && make install
cd ..
cd ..
mv RECON-1.08 ~/software/RepeatModeler-open-1.0.11
(3)nesg---注所有下載文件存到一個nesg文件夾中。
cd ~/nesg
make
cd ..
mv nesg ~/software/RepeatModeler-open-1.0.11
(4)RepeatScout
tar zxvf RepeatScout-1.0.5.tar.gz
cd RepeatScout-1/
make
mv RepeatScout-1 ~/software/RepeatModeler-open-1.0.11
(5)配置
cd ~/software/RepeatModeler-open-1.0.11
perl ./configure
提示缺少perl模塊JSON

#解決方法:無root權限時候。
#https://metacpan.org/pod/JSON下直接download吧
tar xvzf JSON-4.02.tar.gz
cd JSON-4.02/
perl Makefile.PL
make
make install
make test
mv JSON-4.02 ~/software/perl_modules
#再次配置(按提示輸入地址)
cd ~/software/RepeatModeler-open-1.0.11
perl ./configure
./RepeatModeler -h #測試

#寫入環(huán)境變量
vim ~/.bashrc
export PATH="~/software/RepeatMasker:$PATH"
export PATH="~/software/RepeatModeler-open-1.0.11:$PATH"
source ~/.bashrc
#測試
RepeatMasker -h
RepeatModeler -h
2.軟件使用
2.1RepeatMasker的使用
如果RepBase數據庫對一個物種覆蓋率較好,則可以直接使用RepeatMasker屏蔽重復序列。
cd ~/annotation/xx_annotation
mkdir RepeatMasker
touch RepeatMasker.sh
vim RepeatMasker.sh
RepeatMasker -e xx -species xx -pa xx -gff -dir ~/annotation/xx_annotation/RepeatMasker ~/annotation/xx_annotation/xx_unmasked.fa
#-e:選擇搜索引擎,可以為wublast|abblast|ncbi|hmmer|decypher。
#-species:選擇的物種。
#-pa:并行時候使用的處理器數量。
#-gff:輸出gff文件。
#-dir:輸出文件目錄。
#最后為組裝得到的fasta所在目錄。
#結果文件
xx.fa.masked, 將重復序列用N代替(后續(xù)用于預測)。
xx.fa.out.gff, 以gff2形式存放重復序列出現的位置。
xx.fa.tbl, 該文件記錄著分類信息。

#查看屏蔽重復序列情況
cat xx.fa.tbl
#note:如果屏蔽出來的效果不好,建議用下面的方法做(先驗知識,物種的重復序列比例)。

2.2RepeatModeler的使用
如果RepBase數據庫對一個物種覆蓋率不好,直接用RepeatMasker屏蔽出來的很少,則需要使用RepeatModeler構建library。
mkdir RepeatModeler
touch RepeatModeler.sh
vim RepeatModeler.sh
cd ~/annotation/xx_annotation
#1.建立數據庫。
BuildDatabase -name xx -engine xx ~/annotation/xx_annotation/xx_unmasked.fa
#-name:數據庫的名字。
#-engine:選擇的搜索引擎。
#最后為組裝得到的結果所在目錄。
#2.構建library
RepeatModeler -database xx -engine xx -pa xx
#-database:數據庫名字,與前面一致。
#-engine:選擇的搜索引擎,與前面一致。
#-pa:并行時候使用的處理器數量。
#3.RepeatMasker進行重復序列屏蔽
RepeatMasker -e xx -lib xx-families.fa -pa xx -gff -dir ~/annotation/xx_annotation/RepeatModeler xx_unmasked.fa
#注:這里其他使用與前面介紹的一樣,只不過這里指定了我們產生的library文件。
#第一步結果:構建的數據庫。

#第二步結果:運行時間相對較長,一般的服務器建議nohup放后臺運行。
#運行成功會生成以下兩個文件。
xx-families.fa:找到的重復序列。 #對于使用RepeatMasker運行快速自定義庫搜索非常有用。
xx-families.stk:種子聯(lián)配文件(seed alignment file)。
#note:也會生成以下文件。----具體解釋見官網:http://www.repeatmasker.org/RepeatModeler/

#第三步結果:解讀與前面一樣。

3.寫在最后
如果是RepBase對要做物種的覆蓋情況較好直接RepeatMasker就好,當然如果你要做的RepBase覆蓋情況不好的話,還是用RepModeler構建library再用RepeatMasker吧。
參考:
https://shengxin.ren/article/29
https://blog.csdn.net/u012110870/article/details/82500684
http://www.itdecent.cn/p/50ce4bcd1972
http://www.itdecent.cn/p/52621fc935bb
http://www.repeatmasker.org/RepeatModeler/
http://www.repeatmasker.org/RMDownload.html
本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布!