TBtools基因家族分析詳細教程(1)

寫在前面:
非常感謝CJ開發(fā)出如此強大的TBtools工具,作者詳細講解了基因家族的分析過程和意義,課程購買地址,講的很棒,可以試聽。

一共分為4個部分
TBtools基因家族分析詳細教程(1)
TBtools基因家族分析詳細教程(2)基因家族成員的基本分析
TBtools基因家族分析詳細教程(3)基因家族成員的進化分析1
TBtools基因家族分析詳細教程(3)基因家族成員的進化分析2


Introduciton:什么是|為什么做(意義)|
輔助基因注釋或矯正基因注釋
為后續(xù)物種gene功能研究做鋪墊
確定家族中可用的目標(biāo)gene分支(包括挖掘新分支)
基礎(chǔ)的生物信息學(xué)數(shù)據(jù)分析鍛煉
充實論文內(nèi)容或作為論文的主要內(nèi)容
method:怎么做(涉及內(nèi)容,已發(fā)表文獻和自己理解),涉及序列保守,結(jié)構(gòu)域定義,序列比對,進化樹構(gòu)建
內(nèi)容見下面
結(jié)果:完成基因家族分析文章中的內(nèi)容,甚至超過他們。
加深理解分子生物學(xué)和生物信息學(xué)
掌握部分TBtools工具的使用,加速生信下游數(shù)據(jù)分析
繪制漂亮的圖片

Introduction
基因是染色體上一段可以發(fā)生轉(zhuǎn)錄的區(qū)域(內(nèi)含子外顯子啟動子)
轉(zhuǎn)錄本才是基因的研究實體
基因家族來源于同一個祖先,由同一個gene通過基因重復(fù)而產(chǎn)生兩個或更多的拷貝而構(gòu)成的一組gene,其在結(jié)構(gòu)和功能上就有明顯的相似性,編碼相似的蛋白質(zhì)產(chǎn)物,同意家族gene可以緊密排列在一起,形成一個基因簇,但多數(shù)時候,他們分散在同一染色體的不同位置,或存在于不同的染色體上,各自有不同的表達調(diào)控模式
序列高度相似的序列,互為同源gene,歸屬于一個基因家族(拷貝數(shù)目多于1)
結(jié)構(gòu)域的 角度來說,具有保守結(jié)構(gòu)域(某個或多個)的序列,即為某個基因家族的序列(可能同時要不具有另外的某個結(jié)構(gòu)域)

目錄

1 基因家族成員的鑒定

  • 確定研究的基因家族
  • 家族成員的基本特征確定(參考已有物種)
  • 參考序列集合的準備
  • 目標(biāo)物種序列和注釋信息的下載或準備
  • 雙向Blast比對獲取可能的成員
  • 基于保守結(jié)構(gòu)域進行進一步篩選

2 基因家族成員的基本分析

  • 成員的序列特征分析(分子量等電點等)
  • 基于motif分析成員序列保守特征與可視化(蛋白與核酸,可用于挖掘未知,尤其是核酸水平-非編碼水平的保守)
  • 基于domain分析成員結(jié)構(gòu)域的保守型與可視化(往往已知)
  • 基因結(jié)構(gòu)分析(包括內(nèi)含子模式)
  • 基因染色體分布情況可視化

3 基因家族成員的進化分析

  • 多序列比對與可視化
  • 進化樹構(gòu)建與可視化
  • 從進化水平分析motif模式
  • 從進化水平分析domain
  • 從進化水平分析基因結(jié)構(gòu)變化
  • 合并分析以上三方面
  • 基因-共線性的定義與常見算法原理
  • 物種內(nèi)的共線性分析
  • 基因家族成員的來源分析
  • 不同物種之間的共線性分析
  • 共線性分析結(jié)果可視化

內(nèi)容

A 基因家族成員的鑒定

1目標(biāo)物種序列和注釋信息的下載或準備(genome的fasta格式和gff3或gtf)

基因組序列信息:fasta格式文件
基因組基因結(jié)構(gòu)注釋信息:制表符分隔,存儲基因的外顯子內(nèi)含子,CDS等坐標(biāo)信息的.gff3或.gtf文件(區(qū)分基因結(jié)構(gòu)注釋與基因功能注釋)

  • 獲取途徑
    基因組文章中對應(yīng)的鏈接
    常見的數(shù)據(jù)庫Ensemble植物,動物,Phytozome
    NCBI
    其他途徑

1.1蛋白序列結(jié)合的整理與提取(TBtools)

1.1.1使用Gtf/Gff3 sequence extractor,基于基因結(jié)構(gòu)注釋信息,從基因組中提取出所有基因的CDS序列
image1.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
1.1.2使用CDS to protein Translator將所有CDS翻譯為蛋白序列
image.png

fasta文件每個名稱后面有+號,簡化


2 確定研究的基因家族

  • 課題相關(guān),MYB,bHLH,WD40,花青素
  • 研究熱點甲基化 甲基化酶 去甲基化酶
  • 新家族 某蛋白很關(guān)鍵 有沒有家族

3 家族成員的基本特征確定(參考已有物種)

  • 研究相對透徹的基因家族,可參考收錄了基因家族特征的網(wǎng)站如TAIR,PlantTFdb(針對轉(zhuǎn)錄因子

  • 查閱文獻(gras gene family為例),歸納總結(jié)
    注意:保守的結(jié)構(gòu)域(在哪段),幾個分支,保守的aa位點,長度波動

4 參考序列集合的準備

  • 從已經(jīng)收錄的網(wǎng)站下載tari
  • UniProt動植物都有
  • 自行整理(基于文獻或自行鑒定的新家族)

5 雙向Blast比對獲取可能的成員

image.png
image.png
image.png

比對得到的結(jié)果,去重復(fù)得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的結(jié)果。
下面再extract上述42個ID的protein sequence的fasta數(shù)據(jù)

接下來去NCBI blastp

image.png

用TBtools把xml格式轉(zhuǎn)化為table格式


image.png

按Query_def刪除重復(fù)項,保留的都是第一個hit,也就是最匹配的hit。為了判斷是不是全部都家族成員,可以對可疑的基因進行文獻搜索
通過初步篩選,上述42個基本都是基因家族成員,為了進一步確定,進行下一步基于保守結(jié)構(gòu)域進一步篩選

6 基于保守結(jié)構(gòu)域進行進一步篩選

ncib web cd search
或pfam

image.png

可視化

image.png
image.png
image.png

pineapple的(這個圖有問題,可以直接在修改short name列名就可以,注意空格等,這里我就不再改了,后面改過來了)


直接刪除,若嚴謹,重新截取此基因組序列的前后序列,具體

image.png

打開genePose文件,查找剛才可疑的某個gene比如Aco005453.1


image.png

image.png

復(fù)制上述序列到softberry FGENESH-M工具

image.png
image.png

image.png

結(jié)果說明該基因本來該兩個結(jié)構(gòu)域,現(xiàn)在卻一個?;蚪M注釋需要更加完善??梢蕴鎿Q信息進去。其余三個類似。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 基因組組裝完成后,或者是完成了草圖,就不可避免遇到一個問題,需要對基因組序列進行注釋。注釋之前首先得構(gòu)建基因模型,...
    xuzhougeng閱讀 52,866評論 14 185
  • 什么是高通量測序? 高通量測序技術(shù)(High-throughput sequencing,HTS)是對傳統(tǒng)Sang...
    oddxix閱讀 7,555評論 0 44
  • 劉小澤寫于18.9.25今天接觸到一個新名詞——基因家族分析,不搜不知道,一搜嚇一跳。2018年關(guān)于基因家族分析的...
    劉小澤閱讀 9,780評論 0 66
  • 門對面是不完整的略顯殘酷的世界,即使這樣的世界,她也竭盡全力試圖去喜歡,我非常非常喜歡這樣的她 在柔軟的雨幕下,我...
    歡迎兒閱讀 385評論 4 1
  • 你是真的渴望優(yōu)秀? 還是,你覺得優(yōu)秀了, 別人更看得起你?羨慕你? 你的父親會對你更滿意? 我一開始的答案是:我渴...
    塵若嬋閱讀 296評論 0 0

友情鏈接更多精彩內(nèi)容