Bio.PDB.PDBList模块

通过互联网访问PDB(例如下载结构)。

class Bio.PDB.PDBList.PDBList(server='ftp://ftp.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)

基类:object

快速访问PDB或其镜像上的结构列表。

此类提供对PDB服务器或其镜像上的结构列表的快速访问。结构列表包含四个字母的PDB代码,表示结构是新的、已修改或已过时。这些名单每周发布一次。

它还提供了从服务器检索PDB文件的功能。要正确使用它,请准备一个存储PDB文件的目录/pdb等。

支持所有可用的文件格式(PDB、PDBx/mmCif、PDBML、mmtf)。请注意,大型结构(包含>62条链和/或99999条原子线)不再存储为单个pdb文件,并且默认情况下(选择pdb格式时)不会下载。

可以下载其他格式的大型结构,包括PDBx/mmCif或.tar文件(给定结构的类似PDB的格式化文件的集合)。

如果您希望从代理内部使用此模块,请将代理变量添加到您的环境中,例如,在unix:export HTTP_PROXY=‘http://realproxy.charite.de:888’中(这也可以添加到~/.bashrc)

PDB_REF = '\n    The Protein Data Bank: a computer-based archival file for macromolecular structures.\n    F.C.Bernstein, T.F.Koetzle, G.J.B.Williams, E.F.Meyer Jr, M.D.Brice, J.R.Rodgers, O.Kennard, T.Shimanouchi, M.Tasumi\n    J. Mol. Biol. 112 pp. 535-542 (1977)\n    http://www.pdb.org/.\n    '
__init__(server='ftp://ftp.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)

使用默认服务器或自定义服务器初始化该类。

参数pdb是要使用的本地路径,在初始化时默认为当前目录。

static get_status_list(url)

从给定的URL检索每周PDB状态文件中的PDB代码列表。

由Get_Recent_Changes使用。此方法解析的列表文件的典型内容现在非常简单-每行一个PDB名称。

get_recent_changes()

返回三个最新的每周文件列表(添加、修改、过时)。

从PDB服务器读取条目已更改的目录,并将三个URL的元组返回到最近列表中的新条目、已修改条目和过时条目的文件。使用具有最大数字名称的目录。如果出现问题,则返回None。

数据/状态目录的内容(使用20031013);:

drwxrwxr-x 21002 sysadmin 512 10月6 18:28 20031006 drwxrwxr-x 21002 sysadmin 512 10月14 02:14 20031013-rw-r--r--11002 sysadmin 1327 2001年3月12日自述文件

get_all_entries()

检索包含所有PDB条目和一些注释的大文件。

返回索引文件中的PDB代码列表。

get_all_obsolete()

返回PDB中所有过时条目的列表。

返回PDB中曾经存在的所有过时PDB代码的列表。

获取并分析PDB服务器中的文件,格式为(使用的是第一个PDB_CODE列)。该文件如下所示::

 LIST OF OBSOLETE COORDINATE ENTRIES AND SUCCESSORS
OBSLTE    31-JUL-94 116L     216L
...
OBSLTE    29-JAN-96 1HFT     2HFT
OBSLTE    21-SEP-06 1HFV     2J5X
OBSLTE    21-NOV-03 1HG6
OBSLTE    18-JUL-84 1HHB     2HHB 3HHB
OBSLTE    08-NOV-96 1HID     2HID
OBSLTE    01-APR-97 1HIU     2HIU
OBSLTE    14-JAN-04 1HKE     1UUZ
...
retrieve_pdb_file(pdb_code, obsolete=False, pdir=None, file_format=None, overwrite=False)

从PDB服务器获取PDB结构文件,并存储在本地。

PDB结构的文件名作为单个字符串返回。如果已过时 == 如果为True,则该文件将保存在特殊的文件树中。

请注意。默认下载格式已从PDB更改为PDBx/mmCif

参数:
  • pdb_code (string) -- 4-来自PDB的符号结构ID(例如3J92)。

  • file_format (string) -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “pdb”(格式pdb), * "xml" (PDBML/XML format), * “MMPF”(高度压缩)、*“Bundle”(适用于大型结构的PDB格式存档)

  • overwrite (bool) -- 如果设置为True,则将覆盖现有结构文件。默认值:False

  • obsolete (bool) -- 仅对过时的结构有意义。如果为True,则将过时结构下载到“Obsolete”文件夹,否则将不会执行下载。此选项不适用于mmtf格式,因为过时的结构不存储在mmtf中。指定参数pdir时也没有意义。注意:请确保您将要下载的是真正过时的结构。尝试将非过时结构下载到过时文件夹将不起作用,并且您将面临“结构不存在”错误。默认值:False

  • pdir (string) -- 将文件放入此目录(默认:创建PDB样式的目录树)

返回:

文件名

返回类型:

string

update_pdb(file_format=None)

更新PDB文件的本地副本。

我猜这是这个模块的“最想要的”函数。它获得新的和修改的PDB条目的每周列表,并自动下载相应的PDB文件。您可以将此模块作为每周cron作业调用。

download_pdb_files(pdb_codes, obsolete=False, pdir=None, file_format=None, overwrite=False)

从PDB服务器获取一组PDB结构文件,并将其存储在本地。

PDB结构的文件名作为单个字符串返回。如果已过时 == 则文件将保存在特殊的文件树中。

参数:
  • pdb_codes (list of strings) -- 来自PDB的4符号结构ID列表

  • file_format -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “pdb”(格式pdb), * "xml" (PMDML/XML format), * “MMPF”(高度压缩)、*“Bundle”(适用于大型结构的PDB格式存档)

  • overwrite (bool) -- 如果设置为True,则将覆盖现有结构文件。默认值:False

  • obsolete (bool) -- 仅对过时的结构有意义。如果为True,则将过时结构下载到“Obsolete”文件夹,否则将不会执行下载。此选项不适用于mmtf格式,因为过时的结构不能作为mmtf使用。(默认值:FALSE)

  • pdir (string) -- 将文件放入此目录(默认:创建PDB样式的目录树)

返回:

文件名

返回类型:

string

download_entire_pdb(listfile=None, file_format=None)

检索本地PDB副本中不存在的所有PDB条目。

参数:
  • listfile -- 将写入所有PDB代码的文件名(可选)

  • file_format -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “pdb”(格式pdb), * "xml" (PMDML/XML format), * “MMPF”(高度压缩)、*“Bundle”(适用于大型结构的PDB格式存档)

请注意。默认下载格式已从PDB更改为PDBx/mmCif

download_obsolete_entries(listfile=None, file_format=None)

检索本地过时PDB副本中不存在的所有过时PDB条目。

参数:
  • listfile -- 将写入所有PDB代码的文件名(可选)

  • file_format -- 文件格式。可选选项:“mmCif”(默认为PDBx/mmCif文件)、“PDB”(格式为PDB)、“XML”(PMDML/XML格式)、

请注意。默认下载格式已从PDB更改为PDBx/mmCif

get_seqres_file(savefile='pdb_seqres.txt')

检索并保存包含所有PDB条目序列的(BIG)文件。