生信小白如何在半年收到核心期刊錄用證明順利畢業(yè)!?。。ɑ蚣易宄蓡T進(jìn)化關(guān)系的分析)

前面推文所提基本性質(zhì)的分析(理化性質(zhì),基因染色體分布,基因結(jié)構(gòu)、基序和保守結(jié)構(gòu)域)已完成,進(jìn)一步基因家族成員的進(jìn)化分析可以推測未知基因的功能,也會讓文章更為完整。進(jìn)化分析包括1.基因家族成員的分類(進(jìn)化樹)2.物種內(nèi)共線性分析(本人研究栽培花生,其分為A和B兩個亞家族,可以研究A、B、A和B之間的關(guān)系)3.物種間共線性分析(栽培花生與模式植物擬南芥)

1.基因家族成員進(jìn)化分析(進(jìn)化樹),如果基因家族成員數(shù)量不多,與基因結(jié)構(gòu),基序分布和保守結(jié)構(gòu)域可以合成一張圖,根據(jù)自己需要整合,因為本人研究較大,進(jìn)化分析是單獨(dú)做圖。主要是2個部分A:氨基酸序列的比對與進(jìn)化樹的構(gòu)建(MEGA軟件)B:進(jìn)化樹的美化(ITOL網(wǎng)站http://itol2.embl.de/external.cgi)

A:氨基酸序列的比對與進(jìn)化樹的構(gòu)建(MEGA7軟件):Align→Edit/Build Alignment→Create a new alignment→Protein→氨基酸序列拖入→Align by Muscle→Neighbor Joining→出現(xiàn)進(jìn)化樹(調(diào)整了相關(guān)參數(shù)并不是很滿意圖片的質(zhì)量和效果,于是保存樹文本文件,其他軟件或者網(wǎng)站進(jìn)行美化)→File→Export current tree(Newick)→ctrl+s→命名

B:進(jìn)化樹的美化(ITOL)

ITOL(最好進(jìn)行用戶注冊,方便查看保存上傳的文件)→Date uploaded→選擇之前保存的樹文本文件并命名→顯示界面有basic/advanced/diaplay controls(根據(jù)需要自行調(diào)整,我對研究的基因家族成員整體進(jìn)行顏色的分類和命名)→Export tree(根據(jù)需要選擇保存格式)

進(jìn)化樹的構(gòu)建與美化還需要與其他工作結(jié)合進(jìn)行反復(fù)確認(rèn)與修正(同一個亞家族成員基因結(jié)構(gòu)、基序分布保守結(jié)構(gòu)域是否一致,是否與其他物種該基因亞家族分類大致相似等)。

2.物種內(nèi)共線性分析(搜索公眾號“生信藥丸”或“今日之森”講解十分詳細(xì)。栽培花生和栽培花生):主要分為以下3個部分C:序列的比對D:文件的整理E:物種內(nèi)的可視化

C:序列的比對:TBtools→BLAST→Two Sequences Files(參數(shù)自行調(diào)整,Outfmt為table)→Start(運(yùn)行時間與物種基因組大小和相關(guān)參數(shù)設(shè)定有關(guān),花生自身比對電腦運(yùn)行了9 h左右,建議晚上電腦過夜)

D1:文件的整理(Advanced Circos需要2個文件圖中1和3):

(1) 染色體長度文件:自行編輯,文本格式保存

(2)Linked info文件:參考“今日之森”公眾號中物種共線性推文(基因家族成員的數(shù)量少,自行編輯即可)

E1:種內(nèi)的可視化:TBtools→Graphics→Advanced Circos


D2:文件的整理(Circle Gene View需要3個文件圖中1、2和3):

(1)基因組注釋文件:原始的.gff3文件

(2)Gene Id List文件:(第一步確定家族成員已獲得)

(3)Gene Linked info文件::參考“今日之森”公眾號中物種共線性推文(基因家族成員的數(shù)量少,自行編輯即可)

E2:物種內(nèi)的可視化:TBtools→Graphics→Show Genes On Chromosomes→Circle Gene View

3.物種間共線性(栽培花生和擬南芥),與上述一致分為以下3個部分F:序列的比對G:文件的整理H:物種間的可視化

F:序列的比對:TBtools→BLAST→Two Sequences Files(參數(shù)自行調(diào)整,Outfmt為table)→Start(運(yùn)行時間與物種基因組大小和參數(shù)設(shè)定有關(guān),先花生比對到擬南芥,再擬南芥比對到花生,一次比對電腦運(yùn)行了6.5 h左右)

G:文件的整理(總共4個文件整理后只有2個):

(1)TBtools→Comparative Genomics→File Merge for MCScanX→花生和擬南芥分別的基因組注釋文件拖入(.gff),Merge Mode改成GtfGff2SimGxf格式→得到文件1(花生和擬南芥整合的基因組注釋文件);

(2)TBtools→Comparative Genomics→File Merge for MCScanX→花生和擬南芥的分別雙向比對的文件結(jié)果(blast.table),Merge Mode不變→得到文件2(花生和擬南芥的整合的雙向比對的文件結(jié)果)。

(3)TBtools→Comparative Genomics→Quick Run MCScanX Wrapper→拖入文件1和2得到文件3(花生和擬南芥的共線性文件.collinearity)

H:物種間的可視化:TBtools→Comparative Genomics→Dual Synteny Plot→拖入4個文件(Block參數(shù)自行設(shè)置,我設(shè)置的30)→圖片另存為(我一般選擇pdf格式導(dǎo)入PS)

準(zhǔn)備4個文件:

Ctl文件(陳程杰老師課程提供有相關(guān)模板,可自行編輯或搜索其他公眾號的推文)

GFF文件:文件1

Collinearity文件:文件3

Gene List For Highlight:基因家族的ID List(第一步確定家族成員已獲得)

以上就是基因家族成員進(jìn)化關(guān)系的分析,對于成員數(shù)量較多的家族而言,工作量確實(shí)不小,文件格式經(jīng)常出錯,可視化圖片沒有顯示等等,好在摸索后有比較好的結(jié)果,真誠的建議:多想,多找資料,多問,多做。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容