基因家族生信分析基礎(chǔ),基礎(chǔ)到教你序列下載的那種基礎(chǔ)?。ㄒ唬?/h2>

寫在前面:首先這是一門售價(jià)為 0.01 元的視頻課,應(yīng)該買不了吃虧和上當(dāng)哈~?而且和我本人沒有任何關(guān)系,單純覺得還蠻有用,推薦一下哈~

具體課程目錄舉例見下圖,都是基礎(chǔ)中的基礎(chǔ),性價(jià)比較高,如果你也是濕實(shí)驗(yàn)出身,毫無(wú)生信基礎(chǔ),可以考慮看看這些內(nèi)容哦。

課程部分截圖

正文在這:

這個(gè)課程其實(shí)我在研二的時(shí)候看過(guò)一部分,上面截圖里的圈圈就是我看過(guò)的記錄,然而當(dāng)時(shí)懵懵懂懂,看的內(nèi)容也是一知半解,且這個(gè)視頻內(nèi)容大多是基于一個(gè)生信軟件TBtools(簡(jiǎn)書可搜:生信札記),這對(duì)于當(dāng)時(shí)天天忙于做實(shí)驗(yàn)的我,實(shí)用性不高。

回到現(xiàn)在,因?yàn)橐咔橹荒茉诩覍W(xué)習(xí),寫文章之余發(fā)現(xiàn)確實(shí)有很多分析結(jié)果需要這些生信軟件的支撐,這也讓我明白了結(jié)合實(shí)驗(yàn)和生信的必要性。所以,當(dāng)我開始自學(xué)TBtools的時(shí)候,也順便把這個(gè)視頻課撿起來(lái)看看。都說(shuō)好記性不如爛筆頭,更何況我記性也不太好,所以就邊看邊總結(jié),有助于加深印象,防止自己以后忘記了又要重新開始哈哈哈。

1?已知基因家族成員下載——NCBI

首先基因組數(shù)據(jù)庫(kù)有很多:NCBI,EMBL,DDBJ,JGI 等等,最常用的NCBI:

根據(jù)你想下載的內(nèi)容選擇 Nucleotide 或者 Protein,輸入物種拉丁名和家族名稱然后search,如:

選擇 Nucleotide 或者 Protein,而不是Gene!

下拉選擇你需要的內(nèi)容,勾選,右上角Send?to ——》File ——》Format:FASTA ——》Create?File,即下載成功。

File ——》Format:FASTA

2?根據(jù)發(fā)表文獻(xiàn)中ID獲取序列(TBtools的應(yīng)用)

①?Sequence Toolkit ——》NCBI?sequence?Fetch ——》NCBI?sequence?download:可以根據(jù)序列的 Accession?number?或者?GI?number?在本地進(jìn)行下載,批量下載換行即可

Accession?number?或者?GI?number? 在這里

②?Sequence Toolkit ——》Fasta?Tools ——》?Fasta?Extract:可以根據(jù)文獻(xiàn)中的某家族成員ID,在總的基因組序列文件中進(jìn)行提取

我想提取的序列們,只需粘貼ID即可

3 GFF文件的下載——NCBI

GFF文件:里面包含基因的外顯子和內(nèi)含子等信息,方便基因結(jié)構(gòu)的分析。而且如果下載了GFF格式無(wú)法打開,可以用TBtools里面?Other——》Big?File?Previewer,然后將文件拖拽盡力即可快速查看:

TBtools查看

或者win+R,打開cmd,cd?Desktop是打開桌面的意思,回車打開,more+想要查看的文件名,可輸入一部分,后面tab補(bǔ)齊,再回車即可查看:

cmd查看

那么,去哪兒下載GFF文件? NCBI上先選Genome,再輸入拉丁名,一鍵search。

可分為1或2兩種下載方式

1.點(diǎn)GFF直接下載。

2.GenBank選擇想要的基因組版本,可以找到更多更全面的基因組信息,如下圖:

GenBank里信息更多更全面


4 GFF文件的下載——其他數(shù)據(jù)庫(kù)

講的動(dòng)物,人類,木薯啥的基因組下載,好像用不太到哦。

5-8 本地blast的應(yīng)用

因?yàn)門Btools也支持blast功能了,我就直接用TBtools了。

根據(jù)下載的文件,本地進(jìn)行blast
blast步驟圖

visualize之后,選擇不同的可視化模式,關(guān)閉窗口即可。

選擇顯示模式
blast結(jié)果的可視化

9 CDD確定結(jié)構(gòu)域

CDD:CD-search工具:鑒定蛋白質(zhì)或者核酸序列內(nèi)保守結(jié)構(gòu)域。Batch啥意思,批量的意思,所以之后你看到帶Batch的就知道,哦,這個(gè)是批量處理工具,比如點(diǎn)開CDD頁(yè)面正中間的:

學(xué)以致用厲害吧

然后輸入蛋白序列,submit,就能找到輸入序列的保守功能結(jié)構(gòu)域哈。需要注意的一點(diǎn)是,當(dāng)你把結(jié)構(gòu)域結(jié)果下載下來(lái),表格中有一項(xiàng) Incomplete,“-” 則表示正常,“C或者N”?則需注意(據(jù)我推測(cè)可能表示比對(duì)到保守結(jié)構(gòu)域的C端或者N端?)。這個(gè)時(shí)候我們需要剔除比對(duì)長(zhǎng)度小于50%的序列,舉例來(lái)說(shuō),如果A結(jié)構(gòu)域是100,但是你只比對(duì)到49,那這個(gè)比對(duì)結(jié)果可能不可靠,剔除。

10 Pfam確定結(jié)構(gòu)域

Pfam:蛋白質(zhì)家族的集合,每個(gè)蛋白家族由多序列比對(duì)和Hmm模型的形式表示。

點(diǎn)進(jìn)Pfam網(wǎng)址后,輸入你的蛋白序列和郵箱,submit。網(wǎng)頁(yè)上的結(jié)果不如郵箱全面,所以直接看郵箱結(jié)果即可。同樣,如果有較短的結(jié)果,不可靠,需要剔除。

11 進(jìn)化樹

這題我會(huì)做,下一個(gè)。進(jìn)化樹步驟

12 基因結(jié)構(gòu)繪制——TBtools

phytozome,植物的基因組序列數(shù)據(jù)庫(kù),需要注冊(cè)。然后下載所需的gene.gff文件(1)。

確定你想繪制的所有基因的ID,整理到成一個(gè)txt(2)。

gff文件示意圖
全部設(shè)置好之后start

調(diào)整顏色格式之后,Save?Graph保存矢量圖。

如果還想在基因結(jié)構(gòu)左側(cè)加一個(gè)進(jìn)化樹,那么用mega做好進(jìn)化樹,并保存為Newick(.nwk)格式,并且保證基因去CD?search時(shí)候的順序和進(jìn)化樹里的順序是對(duì)應(yīng)的。

將.nwk文件用Notepad打開,復(fù)制,粘貼到上圖輸入(2)的位置,再輸入CD?search的結(jié)果,start即可。


OK,今天先聽到這里,視頻課如果感興趣的話,微信找到“今天吃了橙子”,回復(fù)“基礎(chǔ)”,即可獲取視頻鏈接哦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容