前言
? ? 動(dòng)植物基因組注釋包括重復(fù)序列注釋以及基因結(jié)構(gòu)注釋,重復(fù)序列注釋是注釋中非常重要的環(huán)節(jié),主要包括的軟件有Trf、LTR_Finder、Piler、RepeatScout、RepeatModeler、Repeatmasker和repeatproteinmask。小編這次介紹Trf軟件的安裝與使用,Trf注釋的是串聯(lián)重復(fù)序列(以特定的重復(fù)單元首尾相接排列在基因組上,形成重復(fù)序列)
下載
? ? 官網(wǎng)鏈接:Tandem Repeats Finder Welcome Page,小編這次安裝的是v4.10.0
wget https://github.com/Benson-Genomics-Lab/TRF/archive/master.zip
unzip master.zip ;cd?TRF-master
./configure --prefix=/Bioinfo/software/trf-4.10
make;make install
使用
?使用模板:trf sequence.fa 2 7 7 80 10 50 500 -f -d -m? #trf File Match Mismatch Delta PM PI Minscore MaxPeriod
File: FASTA 格式的DNA 輸入序列
Match, Mismatch, and Delta:?匹配上,沒匹配上和插入的權(quán)重,建議2, 7 7?
PM and PI :PM是指比上的概率,可選擇數(shù)值為80 和75,PI 是插入的概率,可選擇數(shù)值為10 和20,最好效果的參數(shù)是PM=80 和PI=10
Minscore: 被匹配上的串聯(lián)重復(fù)序列的最小分值。比如,我們?cè)O(shè)定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重復(fù)單元,重復(fù)5 次)
Maxperiod: 最大的重復(fù)單元bp 數(shù)
下面是一些可選的選項(xiàng)
-m: 該參數(shù)將輸入文件中trf序列屏蔽為N輸出
-f: 該參數(shù)將輸出每一串聯(lián)重復(fù)序列兩側(cè)200bp 的側(cè)翼序列,輸出到比對(duì)文件中
-d: 該參數(shù)將產(chǎn)生一個(gè)屏蔽文件,記錄了與列表文件一樣的信息,及比對(duì)信息,可用于后續(xù)程序的處理
輸出文件中.dat文件對(duì)生信分析最友好,參數(shù)詳情參考官網(wǎng) :GitHub - Benson-Genomics-Lab/TRF: Tandem Repeats Finder: a program to analyze DNA sequences