Bio.SwissProt软件包

子模块

模块内容

使用来自SwissProt的sprotXX.dat文件的代码。

https://web.expasy.org/docs/userman.html

班级:
  • 记录保存SwissProt数据。

  • Reference保存来自SwissProt记录的引用数据。

功能:
  • 读取一条SwissProt记录

  • 解析读取的多个SwissProt记录

exception Bio.SwissProt.SwissProtParserError(*args, line=None)

基类:ValueError

分析SwissProt文件时出错。

__init__(*args, line=None)

使用有问题的行创建一个SwissProtParserError对象。

class Bio.SwissProt.Record

基类:object

保存来自SwissProt记录的信息。

属性:
  • Entry_Name此条目的名称,例如RL1_ECOLI。

  • DATA_CLASS‘标准’或‘初步’。

  • 分子类型分子的类型,‘PRT’,

  • Sequence_Length残基数量。

  • 加入编号的加入列表,例如 [“P00321”]

  • 已创建(日期,发布)的元组。

  • SEQUENCE_UPDATE(日期,发布)的元组。

  • ANNOTATION_UPDATE(日期,发布)的元组。

  • 说明-自由格式说明。

  • 基因名称基因名称。有关说明,请参阅userman.txt。

  • 有机体是序列的来源。

  • 细胞器序列的起源。

  • 有机体分类:分类学上的分类。字符串列表。(http://www.ncbi.nlm.nih.gov/Taxonomy/))

  • taxonomy_id NCBI分类id的列表。

  • HOST_ORACLY病毒宿主(如果有的话)的名称列表。

  • host_taxonomy_id主机的NCBI分类ID列表(如果有)。

  • 引用对象的引用列表。

  • 字符串的注释列表。

  • 元组的交叉引用列表(db,id1 [,id2] [,id3] )。请看文档。

  • 关键字关键字列表。

  • 功能元组列表(键名称、从、到、说明)。From和To可以是余数的整数、‘<’、‘>’或‘?’

  • PROTEN_EXISTING数值,描述蛋白质存在的证据。

  • 序列信息元组(长度,分子量,CRC32值)

  • 对序列进行排序。

示例

>>> from Bio import SwissProt
>>> example_filename = "SwissProt/sp008"
>>> with open(example_filename) as handle:
...     records = SwissProt.parse(handle)
...     for record in records:
...         print(record.entry_name)
...         print(",".join(record.accessions))
...         print(record.keywords)
...         print(repr(record.organism))
...         print(record.sequence[:20] + "...")
...
1A02_HUMAN
P01892,P06338,P30514,P30444,P30445,P30446,Q29680,Q29899,Q95352,Q29837,Q95380
['MHC I', 'Transmembrane', 'Glycoprotein', 'Signal', 'Polymorphism', '3D-structure']
'Homo sapiens (Human).'
MAVMAPRTLVLLLSGALALT...
__init__()

初始化类。

class Bio.SwissProt.Reference

基类:object

在SwissProt条目中保存来自一个引用的信息。

属性:
  • 编号条目中的引用编号。

  • 证据证据码。字符串列表。

  • 职位描述的是工作范围。字符串列表。

  • 备注:备注。(令牌,文本)的列表。

  • 引用引用。(数据库名,标识符)的列表。

  • 作者这部作品的作者。

  • 作品的标题标题。

  • 地点这项工作的引文。

__init__()

初始化类。

class Bio.SwissProt.FeatureTable(location=None, type='', location_operator='', strand=None, id='<unknown id>', qualifiers=None, sub_features=None, ref=None, ref_db=None)

基类:SeqFeature

存储序列特定区域的特征注释。

这是在Bio.SeqFeature中定义的SeqFeature的子类,其中属性的用法如下:

  • location :要素在规范或等形式序列上的位置;该位置存储为在Bio.SeqFeature中定义的FeatureLocation的实例,其中ref属性设置为引用定义要素的规范或等形式序列的等形式ID

  • id :唯一且稳定的标识符(FTId),仅提供给属于CARBOHYD、CHAIN、PINE、PROPEP、VARIANT或VAR_SEQ类型的要素

  • type :指示UniProt知识库文档定义的功能类型:

    • ACT_SITE:与酶活性有关的氨基酸

    • 结合:任何化学基团的结合位点

    • CARBOHYD:糖基化位点;提供GlyConnect数据库的FTId标识符(如果在那里进行了注释

    • ca_bind:钙结合区

    • 链:成熟蛋白质中的多肽链

    • 盘绕:盘绕区域

    • COMPBIAS:成分偏向区域

    • 冲突:不同的来源报告不同的序列

    • CROSSLNK:转位后形成的氨基酸键

    • DISULFID:二硫键

    • DNA_BIND:DNA结合区

    • 域:域,定义为组织成特征性三维结构或折叠的二级结构的特定组合

    • init_met:引发剂蛋氨酸

    • 膜内区域:位于膜内而不与膜相交的区域。

    • 螺旋:α-、3(10)-或π-螺旋二级结构

    • 脂质:脂质部分的共价结合

    • 金属:金属离子的结合位置

    • mod_res:残留物的翻译后修改(PTM),由UniProt网站上的ptmlist.txt文档定义的受控词汇表进行注释

    • 基序:具有生物学意义的短序列基序

    • 诱变剂:通过诱变实验改变的位点

    • NON_CONS:非连续余数

    • Non_std:非标准氨基酸

    • NON_TER:序列末端的残基不是末端残基

    • NP_BIND:核苷酸磷酸结合区

    • 肽:释放的活性成熟多肽

    • PROPEP:任何经过处理的前肽

    • Region:序列中的感兴趣区域

    • 重复:内部序列重复

    • 信号:信号序列(前肽)

    • 站点:未由另一个功能键表示的感兴趣的氨基酸站点

    • 链:β链二级结构;要么是氢键延伸的β链,要么是孤立的β桥中的残基

    • TOPO_DOM:拓扑域

    • 转运:转运肽(线粒体、叶绿体、类囊体体、蓝细胞、过氧化物酶体等)

    • TRANSMEM:跨膜区

    • 转弯:H键车削(3圈、4圈或5圈)

    • 不确定:序列中的不确定性

    • VARIANT:序列变体;FTID用于人类(类人猿和人类)的蛋白质序列变体

    • VAR_SEQ:通过选择性剪接、选择性启动子使用、选择性起始或核糖体移码产生的序列变体

    • Zn_Fing:锌指区域

  • 限定词附加信息词典,可能包括特征证据和自由文本注释。虽然SwissProt包含功能标识符代码(FTId)作为限定符,但它被存储为FeatureTable对象的属性ID。

Bio.SwissProt.parse(source)

从文件中读取多个SwissProt记录。

参数源是类似文件的对象或文件的路径。

返回一个生成器对象,该对象生成Bio.SwissProt.Record()对象。

Bio.SwissProt.read(source)

从文件中读取一条SwissProt记录。

参数源是类似文件的对象或文件的路径。

返回记录()对象。