蛋白質(zhì)ID映射 & 3D結(jié)構(gòu)下載

最近需要做S.celevisiae數(shù)據(jù)集的相關(guān)操作,需要根據(jù)VEuPathDB數(shù)據(jù)庫中酵母菌蛋白質(zhì)的ID,獲得其序列以及3D結(jié)構(gòu)。

這里采用從UniProt數(shù)據(jù)庫中獲得其序列以及3D結(jié)構(gòu),因此,需要如下步驟:

  1. 將VEuPathDB中的id映射為UniProt中的ID

  2. 下載3D文件


1、ID映射

首先,進入UniProt官網(wǎng),進入ID mapping功能界面

UniProt官網(wǎng)

進入界面后,在From database下拉欄中選擇VEuPathDB數(shù)據(jù)庫,To database下拉欄中選擇UniProtKB。

然后將需要轉(zhuǎn)換的VEuPathDB數(shù)據(jù)庫中的ID寫到框中,點擊MAP IDs,開始進行轉(zhuǎn)換。

ID mapping

查詢完成后,會顯示結(jié)果completed

ID mapping Completed

點擊Completed,會進入到詳情頁面

  • 如果要研究特定物種/器官中的蛋白質(zhì),需要選擇Popular organisms,我理解的是由于同一個蛋白質(zhì)可能會出現(xiàn)在不同的物種/器官中,所以需要選擇到特定場景中,以篩選蛋白質(zhì)
  • 如果只是查詢,可以點擊Customize columns,選擇需要在頁面的詳情表格中出現(xiàn)的數(shù)據(jù)
  • 如果需要將數(shù)據(jù)下載下來,做進一步的分析,點擊Download
    ID mapping

點擊之后,會出現(xiàn)下載頁面,可以調(diào)整Format,以此來選擇下載文件的格式

  • 默認是FASTA格式
  • 但是如果需要額外的詳細信息,比如序列,AlphaFold數(shù)據(jù)庫中的3D結(jié)構(gòu)名稱,就需要選擇Excel等格式


    Download

在詳情選擇界面,如果點對號,相應(yīng)的信息就會出現(xiàn)在下載的Excel文件中,比如我額外選擇了Sequences -> Sequence以及External Resources -> 3D structure -> AlphaFoldDB

選擇完成后,點擊下載,就可以下載映射完成后的文件。


Sequence

3D structure

可以看到,下載好的Excel文件中,就會出現(xiàn)我們感興趣的內(nèi)容


Excel

2、AlphaFold 3D結(jié)構(gòu)下載

進入AlphaFold官網(wǎng),在搜索欄輸入上面下載的Excel文件中對應(yīng)蛋白質(zhì)的AlphaFoldDB中的ID(也就是Entry,UniProt數(shù)據(jù)庫中的ID),這里以第一個P32367為例。

搜索完成后,在Download中選擇想要下載的文件格式,我選擇的是PDB file

PDB file

下載完成后,就可以得到P32367蛋白質(zhì)的3D結(jié)構(gòu)數(shù)據(jù)

P32367

另外,AlphaFold也提供了下載整個物種/器官中所有蛋白質(zhì)3D結(jié)構(gòu)的地方,點擊download

在頁面中選擇需要下載的物種/器官數(shù)據(jù)集


3D structure dataset

比如我們所感興趣的酵母菌蛋白質(zhì)數(shù)據(jù)集就出現(xiàn)在這里


S.cerevisiae
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容