本次推送是文獻(xiàn)分享22的對(duì)應(yīng)內(nèi)容。 我與生信,公眾號(hào):我與生信文獻(xiàn)分享22:泛基因組解析柑橘亞科進(jìn)化以及柑橘果實(shí)中檸檬酸積累的關(guān)鍵基因

EDTA是比較推薦的一款注釋TE的軟件,圖1是其運(yùn)行流程圖。

圖1
第一步,EDTA利用內(nèi)置的其他軟件進(jìn)行初始注釋,這一步的注釋結(jié)果并不是最終結(jié)果,而是構(gòu)建一個(gè)該物種特異性的轉(zhuǎn)座子庫(kù)。
第二步,對(duì)初始注釋的結(jié)果進(jìn)行過濾。
第三步構(gòu)建該物種特異性的TE庫(kù),這一步可以加入其他庫(kù)進(jìn)行補(bǔ)充。注釋的本質(zhì)還是基于同源性,所以這一步庫(kù)越豐富越好。
第四步 注釋得到最終結(jié)果。
分析流程

圖2?
軟件依賴:EDTA (https://github.com/oushujun/EDTA),安裝代碼為圖2。
輸入文件:基因組序列文件(fa格式)和注釋文件(gtf格式)
EDTA進(jìn)行轉(zhuǎn)座子注釋存在兩個(gè)問題:
1、SINE和LINE類型的轉(zhuǎn)座子注釋效果很差,可以提供人工矯正的SINE和LINE庫(kù)用以補(bǔ)充。
2、注釋出的LTR型轉(zhuǎn)座子很多是未分類的,可以利用DeepTE軟件進(jìn)行進(jìn)一步分類。
下面開始介紹整合這兩個(gè)解決方案后的EDTA完整注釋流程。

圖3
第一步 使用EDTA進(jìn)行初步注釋(圖3)
注意提前進(jìn)入EDTA環(huán)境

圖4?
EDTA參數(shù)說明(圖4)
--genome 指定參考基因組
--species 指定注釋TIR轉(zhuǎn)座子的方法,該軟件一開始是針對(duì)玉米和水稻設(shè)計(jì)的,因此選項(xiàng)里帶有玉米和水稻,對(duì)于其他物種,選擇others即可。
--step 運(yùn)行注釋流程的哪一步,見圖 1中的流程。
--curatedlib 提供額外數(shù)據(jù)庫(kù)。
--cds 是否進(jìn)行CDS過濾,一般沒必要。
--sensitive 1指定運(yùn)行RepeatModeler,0不運(yùn)行,運(yùn)行RepeatModeler會(huì)極其慢,需注意。
--exclude 用于屏蔽某些區(qū)域,一般也沒必要。
--repeatmodeler和—repeatmasker 指定兩個(gè)軟件的安裝目錄,一般沒必要,可自行查找。
--u 指定核苷酸變異速率,用來計(jì)算LTR插入時(shí)間。

圖5

圖6
--curatedlib參數(shù)加入了額外的SINE/LINE庫(kù),可以從SIINE base數(shù)據(jù)庫(kù)(https://sines.eimb.ru/)下載(圖5和圖6)。
第二步 利用DeepTE對(duì)未分類的LTR進(jìn)一步分類(圖7)
DeepTE基于深度學(xué)習(xí)進(jìn)行進(jìn)一步分類

圖7
第三步 重新運(yùn)行EDTA進(jìn)行最終注釋(圖8)

圖8

圖9
genome.fa.mod.EDTA.TEanno.sum文件包含了最終的統(tǒng)計(jì)信息(圖9)。
參考鏈接
https://genek.cn/