基因組注釋--重復(fù)序列注釋(一):Trf軟件安裝與使用

前言

? ? 動(dòng)植物基因組注釋包括重復(fù)序列注釋以及基因結(jié)構(gòu)注釋,重復(fù)序列注釋是注釋中非常重要的環(huán)節(jié),主要包括的軟件有Trf、LTR_Finder、Piler、RepeatScout、RepeatModeler、Repeatmasker和repeatproteinmask。小編這次介紹Trf軟件的安裝與使用,Trf注釋的是串聯(lián)重復(fù)序列(以特定的重復(fù)單元首尾相接排列在基因組上,形成重復(fù)序列)

下載

? ? 官網(wǎng)鏈接:Tandem Repeats Finder Welcome Page,小編這次安裝的是v4.10.0

wget https://github.com/Benson-Genomics-Lab/TRF/archive/master.zip

unzip master.zip ;cd?TRF-master

./configure --prefix=/Bioinfo/software/trf-4.10

make;make install

使用

?使用模板:trf sequence.fa 2 7 7 80 10 50 500 -f -d -m? #trf File Match Mismatch Delta PM PI Minscore MaxPeriod

File: FASTA 格式的DNA 輸入序列

Match, Mismatch, and Delta:?匹配上,沒匹配上和插入的權(quán)重,建議2, 7 7?

PM and PI :PM是指比上的概率,可選擇數(shù)值為80 和75,PI 是插入的概率,可選擇數(shù)值為10 和20,最好效果的參數(shù)是PM=80 和PI=10

Minscore: 被匹配上的串聯(lián)重復(fù)序列的最小分值。比如,我們?cè)O(shè)定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重復(fù)單元,重復(fù)5 次)

Maxperiod: 最大的重復(fù)單元bp 數(shù)

下面是一些可選的選項(xiàng)

-m: 該參數(shù)將輸入文件中trf序列屏蔽為N輸出

-f: 該參數(shù)將輸出每一串聯(lián)重復(fù)序列兩側(cè)200bp 的側(cè)翼序列,輸出到比對(duì)文件中

-d: 該參數(shù)將產(chǎn)生一個(gè)屏蔽文件,記錄了與列表文件一樣的信息,及比對(duì)信息,可用于后續(xù)程序的處理


輸出文件中.dat文件對(duì)生信分析最友好,參數(shù)詳情參考官網(wǎng) :GitHub - Benson-Genomics-Lab/TRF: Tandem Repeats Finder: a program to analyze DNA sequences

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容