2018.5.28 星期一 多云 biolearn
從PDB數(shù)據(jù)庫下載復(fù)合物的結(jié)構(gòu)有兩種方式,一是直接通過網(wǎng)頁檢索下載,二是使用rsync從PDB ftp端下載。
下載指定ID的PDB
PDB ftp 端的文件命名格式是 pdbID.ent.gz,所以在下載指定名字的PDB文件時,需要按照ftp上的命名規(guī)則命名下載,例如,下載名為1aay的結(jié)構(gòu),下載的文件是gz格式,解壓后即為PDB文件。
wget ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/pdb1aay.ent.gz
gunzip pdb1aay.ent.gz
下載全部的PDB文件
不同文件格式對應(yīng)的下載命令
PDB格式
rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/pdb/ ./pdb
mmCIF格式
rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF
xml格式
rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/XML/ ./XML
解壓所有文件
將下載下來的所有.gz的文件進(jìn)行解壓并修改為.pdb的格式并存放在文件夾pdbstructure中的shell腳本
#!/bin/sh
mkdir pdbstructure
for filename in `ls ./pdb`
do
gunzip ./pdb/$filename/*
for subfile in `ls ./pdb/$filename`
do
target_name=${subfile:3:4}.pdb
mv ./pdb/$filename/$subfile ./pdbstructure/$target_name
done
done
參考資料