如何在NCBI批量下載基因家族序列?

在做生信下游基因分析的時候,我們通常需要下載興趣基因的序列信息構(gòu)建進化書什么的,如果興趣基因比較少,那么可以直接在NCBI上搜索這個基因下載序列。但如果興趣基因很多,如果逐個下載就會很麻煩了。這時候我們會很渴望一個可以批量下載基因序列的方法,那么,在不涉及到編程的情況下,這里推薦用NCBI自帶的Batch entrez進行序列的批量下載。

舉個栗子??:師姐讓幫忙下載擬南芥PP2C家族的全部蛋白序列,可以通過以下步驟實現(xiàn):

→獲取擬南芥PP2C家族的全部基因信息

這一步驟可以在Tair上實現(xiàn),首先打開Tair網(wǎng)站,通過Browse選項找到gene family,找到PP2C基因家族,點進去發(fā)現(xiàn)PP2C家族有76個基因,Tair上還貼心地列出了參考文獻和基因分組。


Screenshot 2020-04-20 at 11.47.41.png
Screenshot 2020-04-20 at 11.49.34.png
Screenshot 2020-04-20 at 11.49.50.png

初步了解PP2C家族的信息后,如果關(guān)注某一個基因可以直接點進去看。舉例點開AHG1這個基因,可以看到這個基因的詳細信息。如果要下載這個基因的蛋白序列可以通過點擊protein選項獲取基因序列,點擊Send to Blast按扭,在彈出的頁面中可以直接復(fù)制該序列粘貼到文本文件中去。這樣就獲得了AHG1基因的序列信息。


Screenshot 2020-04-20 at 11.54.08.png
Screenshot 2020-04-20 at 11.54.38.png
Screenshot 2020-04-20 at 11.55.31.png

上面這個方法是針對單個基因序列的。但如果想要下載全部PP2C基因家族的信息那就很繁瑣了,而且很容易出錯,網(wǎng)絡(luò)不好的時候還容易氣到自己。所以下面給大家推薦一個NCBI自帶的批量下載基因序列的軟件Batchentrez。

Tair上提供了下載全集擬南芥基因家族信息的選項,我們先去把PP2C家族基因的accession numbers下載下來便于后續(xù)Batchentrez的分析。

首先點開Tair上的Download-Gene選項,點進去發(fā)現(xiàn)可以直接下載擬南芥全部基因家族信息,右鍵點擊下載后會得到一個txt文件,用Excel打開后,通過篩選就可以看到全部PP2C家族的基因信息了。同樣的這個表格中給出了每個基因的accession numbers(表格中給的名字是Refseq_ID),復(fù)制PP2C家族基因的全部accession numbers,保存在一個txt文件里。


Screenshot 2020-04-20 at 12.02.36.png
Screenshot 2020-04-20 at 12.05.11.png
Screenshot 2020-04-20 at 12.10.35.png
Screenshot 2020-04-20 at 12.12.32.png

→Batchentrez進行序列批量下載

下面的步驟都轉(zhuǎn)移到NCBI網(wǎng)站上進行。打開Batchentrez頁面,點擊Choose File選項上傳我們剛剛創(chuàng)建的txt格式的文件,然后因為我們要下載的是蛋白序列,所以Database選項選protein,然后點擊Retrieve選項。

Screenshot 2020-04-20 at 12.14.32.png
Screenshot 2020-04-20 at 12.18.06.png
Screenshot 2020-04-20 at 12.19.02.png

batchentrez會檢查文件中序列ID信息,并且會去除重復(fù),返回檢索結(jié)果,如果有檢索不到的序列會reject,在這里我們的序列都被檢索到了,點擊最下方的鏈接選項。

可以看到我們檢索的所有76個PP2C家族基因信息都列出來了。點擊上方的Send to選項,選擇file,fasta格式,然后點擊Creat File選項就大功告成啦~

點擊后網(wǎng)站會提醒你下載文件,點擊下載后會得到一個txt文件,這里就是我們?nèi)炕虻牡鞍仔蛄行畔⒗瞺


Screenshot 2020-04-20 at 12.25.20.png
Screenshot 2020-04-20 at 12.28.00.png

參考資源:

  1. 生物信息神奇網(wǎng)站系列(九):批量下載序列
    鏈接:https://zhuanlan.zhihu.com/p/35850918
    來源:知乎
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容