使用rsync下載PDB數(shù)據(jù)庫

2018.5.28 星期一 多云 biolearn

從PDB數(shù)據(jù)庫下載復(fù)合物的結(jié)構(gòu)有兩種方式,一是直接通過網(wǎng)頁檢索下載,二是使用rsync從PDB ftp端下載。

下載指定ID的PDB

PDB ftp 端的文件命名格式是 pdbID.ent.gz,所以在下載指定名字的PDB文件時,需要按照ftp上的命名規(guī)則命名下載,例如,下載名為1aay的結(jié)構(gòu),下載的文件是gz格式,解壓后即為PDB文件。

wget ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/pdb1aay.ent.gz
gunzip pdb1aay.ent.gz

下載全部的PDB文件

不同文件格式對應(yīng)的下載命令

PDB格式

rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/pdb/ ./pdb

mmCIF格式

rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF

xml格式

rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/XML/ ./XML

解壓所有文件

將下載下來的所有.gz的文件進(jìn)行解壓并修改為.pdb的格式并存放在文件夾pdbstructure中的shell腳本

#!/bin/sh
mkdir pdbstructure
for filename in `ls ./pdb`
do
    gunzip ./pdb/$filename/*
    for subfile in `ls ./pdb/$filename`
    do
        target_name=${subfile:3:4}.pdb
        mv ./pdb/$filename/$subfile ./pdbstructure/$target_name
    done
done

參考資料

http://www.wwpdb.org/download/downloads

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容