寫在前面:
非常感謝CJ開發(fā)出如此強大的TBtools工具,作者詳細講解了基因家族的分析過程和意義,課程購買地址,講的很棒,可以試聽。
一共分為4個部分
TBtools基因家族分析詳細教程(1)
TBtools基因家族分析詳細教程(2)基因家族成員的基本分析
TBtools基因家族分析詳細教程(3)基因家族成員的進化分析1
TBtools基因家族分析詳細教程(3)基因家族成員的進化分析2
Introduciton:什么是|為什么做(意義)|
輔助基因注釋或矯正基因注釋
為后續(xù)物種gene功能研究做鋪墊
確定家族中可用的目標(biāo)gene分支(包括挖掘新分支)
基礎(chǔ)的生物信息學(xué)數(shù)據(jù)分析鍛煉
充實論文內(nèi)容或作為論文的主要內(nèi)容
method:怎么做(涉及內(nèi)容,已發(fā)表文獻和自己理解),涉及序列保守,結(jié)構(gòu)域定義,序列比對,進化樹構(gòu)建
內(nèi)容見下面
結(jié)果:完成基因家族分析文章中的內(nèi)容,甚至超過他們。
加深理解分子生物學(xué)和生物信息學(xué)
掌握部分TBtools工具的使用,加速生信下游數(shù)據(jù)分析
繪制漂亮的圖片
Introduction
基因是染色體上一段可以發(fā)生轉(zhuǎn)錄的區(qū)域(內(nèi)含子外顯子啟動子)
轉(zhuǎn)錄本才是基因的研究實體
基因家族來源于同一個祖先,由同一個gene通過基因重復(fù)而產(chǎn)生兩個或更多的拷貝而構(gòu)成的一組gene,其在結(jié)構(gòu)和功能上就有明顯的相似性,編碼相似的蛋白質(zhì)產(chǎn)物,同意家族gene可以緊密排列在一起,形成一個基因簇,但多數(shù)時候,他們分散在同一染色體的不同位置,或存在于不同的染色體上,各自有不同的表達調(diào)控模式
序列高度相似的序列,互為同源gene,歸屬于一個基因家族(拷貝數(shù)目多于1)
結(jié)構(gòu)域的 角度來說,具有保守結(jié)構(gòu)域(某個或多個)的序列,即為某個基因家族的序列(可能同時要不具有另外的某個結(jié)構(gòu)域)
目錄
1 基因家族成員的鑒定
- 確定研究的基因家族
- 家族成員的基本特征確定(參考已有物種)
- 參考序列集合的準備
- 目標(biāo)物種序列和注釋信息的下載或準備
- 雙向Blast比對獲取可能的成員
- 基于保守結(jié)構(gòu)域進行進一步篩選
2 基因家族成員的基本分析
- 成員的序列特征分析(分子量等電點等)
- 基于motif分析成員序列保守特征與可視化(蛋白與核酸,可用于挖掘未知,尤其是核酸水平-非編碼水平的保守)
- 基于domain分析成員結(jié)構(gòu)域的保守型與可視化(往往已知)
- 基因結(jié)構(gòu)分析(包括內(nèi)含子模式)
- 基因染色體分布情況可視化
3 基因家族成員的進化分析
- 多序列比對與可視化
- 進化樹構(gòu)建與可視化
- 從進化水平分析motif模式
- 從進化水平分析domain
- 從進化水平分析基因結(jié)構(gòu)變化
- 合并分析以上三方面
- 基因-共線性的定義與常見算法原理
- 物種內(nèi)的共線性分析
- 基因家族成員的來源分析
- 不同物種之間的共線性分析
- 共線性分析結(jié)果可視化
內(nèi)容
A 基因家族成員的鑒定
1目標(biāo)物種序列和注釋信息的下載或準備(genome的fasta格式和gff3或gtf)
基因組序列信息:fasta格式文件
基因組基因結(jié)構(gòu)注釋信息:制表符分隔,存儲基因的外顯子內(nèi)含子,CDS等坐標(biāo)信息的.gff3或.gtf文件(區(qū)分基因結(jié)構(gòu)注釋與基因功能注釋)
1.1蛋白序列結(jié)合的整理與提取(TBtools)
1.1.1使用Gtf/Gff3 sequence extractor,基于基因結(jié)構(gòu)注釋信息,從基因組中提取出所有基因的CDS序列








1.1.2使用CDS to protein Translator將所有CDS翻譯為蛋白序列


fasta文件每個名稱后面有+號,簡化

2 確定研究的基因家族
- 課題相關(guān),MYB,bHLH,WD40,花青素
- 研究熱點甲基化 甲基化酶 去甲基化酶
- 新家族 某蛋白很關(guān)鍵 有沒有家族
3 家族成員的基本特征確定(參考已有物種)
研究相對透徹的基因家族,可參考收錄了基因家族特征的網(wǎng)站如TAIR,PlantTFdb(針對轉(zhuǎn)錄因子)
查閱文獻(gras gene family為例),歸納總結(jié)
注意:保守的結(jié)構(gòu)域(在哪段),幾個分支,保守的aa位點,長度波動
4 參考序列集合的準備
5 雙向Blast比對獲取可能的成員




比對得到的結(jié)果,去重復(fù)得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的結(jié)果。
下面再extract上述42個ID的protein sequence的fasta數(shù)據(jù)
接下來去NCBI blastp


用TBtools把xml格式轉(zhuǎn)化為table格式

按Query_def刪除重復(fù)項,保留的都是第一個hit,也就是最匹配的hit。為了判斷是不是全部都家族成員,可以對可疑的基因進行文獻搜索
通過初步篩選,上述42個基本都是基因家族成員,為了進一步確定,進行下一步基于保守結(jié)構(gòu)域進一步篩選
6 基于保守結(jié)構(gòu)域進行進一步篩選
ncib web cd search
或pfam

可視化



pineapple的(這個圖有問題,可以直接在修改short name列名就可以,注意空格等,這里我就不再改了,后面改過來了)

直接刪除,若嚴謹,重新截取此基因組序列的前后序列,具體

打開genePose文件,查找剛才可疑的某個gene比如Aco005453.1


復(fù)制上述序列到softberry FGENESH-M工具



結(jié)果說明該基因本來該兩個結(jié)構(gòu)域,現(xiàn)在卻一個?;蚪M注釋需要更加完善??梢蕴鎿Q信息進去。其余三個類似。