生信分析22:完整的轉(zhuǎn)座子注釋流程

本次推送是文獻(xiàn)分享22的對(duì)應(yīng)內(nèi)容。

我與生信,公眾號(hào):我與生信文獻(xiàn)分享22:泛基因組解析柑橘亞科進(jìn)化以及柑橘果實(shí)中檸檬酸積累的關(guān)鍵基因

EDTA是比較推薦的一款注釋TE的軟件,圖1是其運(yùn)行流程圖。

圖1

第一步,EDTA利用內(nèi)置的其他軟件進(jìn)行初始注釋,這一步的注釋結(jié)果并不是最終結(jié)果,而是構(gòu)建一個(gè)該物種特異性的轉(zhuǎn)座子庫(kù)。

第二步,對(duì)初始注釋的結(jié)果進(jìn)行過濾。

第三步構(gòu)建該物種特異性的TE庫(kù),這一步可以加入其他庫(kù)進(jìn)行補(bǔ)充。注釋的本質(zhì)還是基于同源性,所以這一步庫(kù)越豐富越好。

第四步 注釋得到最終結(jié)果。

分析流程

圖2?

軟件依賴:EDTA (https://github.com/oushujun/EDTA),安裝代碼為圖2。

輸入文件:基因組序列文件(fa格式)和注釋文件(gtf格式)

EDTA進(jìn)行轉(zhuǎn)座子注釋存在兩個(gè)問題:

1、SINE和LINE類型的轉(zhuǎn)座子注釋效果很差,可以提供人工矯正的SINE和LINE庫(kù)用以補(bǔ)充。

2、注釋出的LTR型轉(zhuǎn)座子很多是未分類的,可以利用DeepTE軟件進(jìn)行進(jìn)一步分類。

下面開始介紹整合這兩個(gè)解決方案后的EDTA完整注釋流程。

圖3

第一步 使用EDTA進(jìn)行初步注釋(圖3)

注意提前進(jìn)入EDTA環(huán)境

圖4?

EDTA參數(shù)說明(圖4)

--genome 指定參考基因組

--species 指定注釋TIR轉(zhuǎn)座子的方法,該軟件一開始是針對(duì)玉米和水稻設(shè)計(jì)的,因此選項(xiàng)里帶有玉米和水稻,對(duì)于其他物種,選擇others即可。

--step 運(yùn)行注釋流程的哪一步,見圖 1中的流程。

--curatedlib 提供額外數(shù)據(jù)庫(kù)。

--cds 是否進(jìn)行CDS過濾,一般沒必要。

--sensitive 1指定運(yùn)行RepeatModeler,0不運(yùn)行,運(yùn)行RepeatModeler會(huì)極其慢,需注意。

--exclude 用于屏蔽某些區(qū)域,一般也沒必要。

--repeatmodeler和—repeatmasker 指定兩個(gè)軟件的安裝目錄,一般沒必要,可自行查找。

--u 指定核苷酸變異速率,用來計(jì)算LTR插入時(shí)間。

圖5

圖6

--curatedlib參數(shù)加入了額外的SINE/LINE庫(kù),可以從SIINE base數(shù)據(jù)庫(kù)(https://sines.eimb.ru/)下載(圖5和圖6)。

第二步 利用DeepTE對(duì)未分類的LTR進(jìn)一步分類(圖7)

DeepTE基于深度學(xué)習(xí)進(jìn)行進(jìn)一步分類

圖7

第三步 重新運(yùn)行EDTA進(jìn)行最終注釋(圖8)

圖8

圖9

genome.fa.mod.EDTA.TEanno.sum文件包含了最終的統(tǒng)計(jì)信息(圖9)。

參考鏈接

https://genek.cn/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容