Bio.SwissProt包

子模块

模块内容

用于处理SwissProt的sprotXX.dat文件的代码。

https://web.expasy.org/docs/userman.html

职业:
  • 记录 保存SwissProt数据。

  • 参考 保存SwissProt记录中的参考数据。

功能:
  • 读 阅读一份SwissProt记录

  • 解析 阅读多条SwissProt记录

exception Bio.SwissProt.SwissProtParserError(*args, line=None)

基类:ValueError

分析SwissProt文件时出错。

__init__(*args, line=None)

创建带有违规行的SwissProtParserAlert对象。

__firstlineno__ = 27
__static_attributes__ = ('line',)
class Bio.SwissProt.Record

基类:object

保存SwissProt记录中的信息。

属性:
  • 条目名称 此条目的名称,例如RL 1_ECOLI。

  • 数据类 “标准”或“初步”。

  • 分子类型 分子类型,“PRT”,

  • 序列长度 残留物数量。

  • 种质 登录号列表,例如 ['P00321']

  • 创建 (日期、发行)的二元组。

  • 序列_更新 (日期、发行)的二元组。

  • annotation_Update(日期,发布)的二元组。

  • 描述 自由格式描述。

  • 基因名 带有键“Name”、“Synonyms”、

    “orderedLocusName”和“ORFSYS”。

  • 生物体 序列的来源。

  • 细胞器 序列的起源。

  • organism_classification分类。 字符串列表。(http://www.ncbi.nlm.nih.gov/Taxonomy/)

  • taxonomy_id NCBI分类ID列表。

  • 宿主生物 病毒宿主的名称列表(如果有的话)。

  • Host_taxonomy_id主机的NCBI分类ID列表(如果有的话)。

  • 引用 参考对象列表。

  • 评论 字符串列表。

  • cross_referencies二元组列表(DB,id 1 [, id2] [, id3] ). 查看文档。

  • 关键词 关键词列表。

  • 特征 二元组列表(关键名称、从、到、描述)。from和to可以是剩余数的整数、“ð”、“ð”或“?'

  • 蛋白质_存在描述蛋白质存在证据的数值。

  • seqinfo (长度、分子量、CRC 32值)的多元组

  • 序列 序列。

示例

>>> from Bio import SwissProt
>>> example_filename = "SwissProt/P68308.txt"
>>> with open(example_filename) as handle:
...     records = SwissProt.parse(handle)
...     for record in records:
...         print(record.entry_name)
...         print(record.accessions)
...         print(record.keywords)
...         print(record.organism)
...         print(record.sequence[:20] + "...")
...
NU3M_BALPH
['P68308', 'P24973']
['Electron transport', 'Membrane', 'Mitochondrion', 'Mitochondrion inner membrane', 'NAD', 'Respiratory chain', 'Translocase', 'Transmembrane', 'Transmembrane helix', 'Transport', 'Ubiquinone']
Balaenoptera physalus (Fin whale) (Balaena physalus).
MNLLLTLLTNTTLALLLVFI...
__init__()

初始化课程。

__firstlineno__ = 36
__static_attributes__ = ('accessions', 'annotation_update', 'comments', 'created', 'cross_references', 'data_class', 'description', 'entry_name', 'features', 'gene_name', 'host_organism', 'host_taxonomy_id', 'keywords', 'molecule_type', 'organelle', 'organism', 'organism_classification', 'protein_existence', 'references', 'seqinfo', 'sequence', 'sequence_length', 'sequence_update', 'taxonomy_id')
class Bio.SwissProt.Reference

基类:object

保存SwissProt条目中一个引用的信息。

属性:
  • number 条目中的引用数。

  • 证据 证据代码。 字符串列表。

  • 位置 描述工作范围。 字符串列表。

  • 评论 评论. (标记、文本)列表。

  • 参考文献参考文献。 (db名称,标识符)列表。

  • 作者 该作品的作者。

  • 标题 作品的标题。

  • 位置 该作品的引文。

__init__()

初始化课程。

__firstlineno__ = 121
__static_attributes__ = ('authors', 'comments', 'location', 'number', 'positions', 'references', 'title')
class Bio.SwissProt.FeatureTable(location=None, type='', id='<unknown id>', qualifiers=None, sub_features=None)

基类:SeqFeature

存储序列特定区域的特征注释。

这是SeqPerformance的一个子集,在Bio. SeqPerformance中定义,其中属性的使用方式如下:

  • location :特征在规范或同种型序列上的位置;该位置存储为SimpleLocity的实例,在Bio. SeqPerformance中定义,ref属性设置为同种型ID,该ID引用定义了特征的规范或同种型序列

  • id :唯一且稳定的标识符(FTId),仅为属于CARBOHyD、CHAIN、PEPTIDE、PROPEP、VARIANT或VAR_序列类型的特征提供

  • type :指示UniProt知识库文档定义的功能类型:

    • ACT_SITE:参与酶活性的氨基酸

    • 结合:任何化学基团的结合部位

    • CARBOHyD:糖基化位点;如果在其中注释,则提供GlyConnect数据库的FTId标识符

    • CA_BIND:钙结合区

    • 链: 成熟蛋白质中的肽链

    • 服装: 卷曲螺旋区域

    • COMBias:成分偏见地区

    • 冲突:不同来源报告的序列不同

    • CROSSLNK:转录后形成的氨基酸键

    • DISURFID:二硫键

    • DNA_BIND:DNA结合区

    • 域: 域,定义为组织成特征性三维结构或褶皱的二级结构的特定组合

    • DID_MET:引发剂甲硫素

    • INTRAMEM:位于膜中但未穿过膜的区域

    • 螺旋: 阿尔法-、3(10)-或pi-螺旋二级结构

    • Lipid: 脂质部分的质子结合

    • 金属: 金属离子的结合部位

    • 模组_RES:残基的翻译后修饰(LMA),由UniProt网站上的ttmlist.text文档定义的受控词汇进行注释

    • 主题: 具有生物学意义的短序列基序

    • 突变:通过突变实验改变的位点

    • NON_CONS:非连续残基

    • NON_STP:非标准氨基酸

    • NON_TER:序列末端的残基不是末端残基

    • NP_BIND:核苷酸磷酸结合区

    • 肽:释放的活性成熟肽

    • 方案: 任何加工的前肽

    • 地区: 序列中感兴趣的区域

    • 重复: 内部序列重复

    • 信号: 信号序列(前肽)

    • 地点: 未由另一个特征关键字代表的感兴趣的氨基酸位点

    • 斯特兰德: β-链二级结构;可以是一个键合的延伸β链,也可以是一个孤立的β-桥中的残基

    • TOPO_多姆:拓扑域

    • 转运:转运肽(线粒体、线粒体、类囊体、花蓝囊体、过氧化体等)

    • 跨膜区:跨膜区

    • 转向: H-粘合圈(3-、4-或5-圈)

    • 不确定: 序列中的不确定性

    • 变体:序列变体; FTId为人科(类人猿和人类)的蛋白质序列变体提供

    • VAR_序列:通过选择性拼接、选择性启动子使用、选择性起始或核糖体移码产生的序列变体

    • ZN_FING:锌指区

  • qualifiers :附加信息的字典,其可以包括特征证据和自由文本注释。虽然SwissProt包含功能标识符代码(FTId)作为限定符,但它存储为PracticalTable对象的属性ID。

__annotations__ = {}
__firstlineno__ = 147
__static_attributes__ = ()
Bio.SwissProt.parse(source)

从文件中读取多个SwissProt记录。

参数源是类似文件的对象或文件的路径。

返回一个生成器对象,它生成Bio.SwissProt.Record()对象。

Bio.SwissProt.read(source)

从文件中读取一条SwissProt记录。

参数源是类似文件的对象或文件的路径。

返回Record()对象。