最近需要做S.celevisiae數(shù)據(jù)集的相關(guān)操作,需要根據(jù)VEuPathDB數(shù)據(jù)庫中酵母菌蛋白質(zhì)的ID,獲得其序列以及3D結(jié)構(gòu)。
這里采用從UniProt數(shù)據(jù)庫中獲得其序列以及3D結(jié)構(gòu),因此,需要如下步驟:
將VEuPathDB中的id映射為UniProt中的ID
下載3D文件
1、ID映射
首先,進入UniProt官網(wǎng),進入ID mapping功能界面

進入界面后,在From database下拉欄中選擇VEuPathDB數(shù)據(jù)庫,To database下拉欄中選擇UniProtKB。
然后將需要轉(zhuǎn)換的VEuPathDB數(shù)據(jù)庫中的ID寫到框中,點擊MAP IDs,開始進行轉(zhuǎn)換。

查詢完成后,會顯示結(jié)果completed

點擊Completed,會進入到詳情頁面
- 如果要研究特定物種/器官中的蛋白質(zhì),需要選擇
Popular organisms,我理解的是由于同一個蛋白質(zhì)可能會出現(xiàn)在不同的物種/器官中,所以需要選擇到特定場景中,以篩選蛋白質(zhì) - 如果只是查詢,可以點擊
Customize columns,選擇需要在頁面的詳情表格中出現(xiàn)的數(shù)據(jù) - 如果需要將數(shù)據(jù)下載下來,做進一步的分析,點擊
Download
ID mapping
點擊之后,會出現(xiàn)下載頁面,可以調(diào)整Format,以此來選擇下載文件的格式
- 默認是FASTA格式
-
但是如果需要額外的詳細信息,比如序列,AlphaFold數(shù)據(jù)庫中的3D結(jié)構(gòu)名稱,就需要選擇Excel等格式
Download
在詳情選擇界面,如果點對號,相應(yīng)的信息就會出現(xiàn)在下載的Excel文件中,比如我額外選擇了Sequences -> Sequence以及External Resources -> 3D structure -> AlphaFoldDB。
選擇完成后,點擊下載,就可以下載映射完成后的文件。


可以看到,下載好的Excel文件中,就會出現(xiàn)我們感興趣的內(nèi)容

2、AlphaFold 3D結(jié)構(gòu)下載
進入AlphaFold官網(wǎng),在搜索欄輸入上面下載的Excel文件中對應(yīng)蛋白質(zhì)的AlphaFoldDB中的ID(也就是Entry,UniProt數(shù)據(jù)庫中的ID),這里以第一個P32367為例。
搜索完成后,在Download中選擇想要下載的文件格式,我選擇的是PDB file

下載完成后,就可以得到P32367蛋白質(zhì)的3D結(jié)構(gòu)數(shù)據(jù)

另外,AlphaFold也提供了下載整個物種/器官中所有蛋白質(zhì)3D結(jié)構(gòu)的地方,點擊download
在頁面中選擇需要下載的物種/器官數(shù)據(jù)集

比如我們所感興趣的酵母菌蛋白質(zhì)數(shù)據(jù)集就出現(xiàn)在這里


