Bio.SwissProt软件包¶

子模块¶

Bio.SwissProt.KeyWList模块
- Record
  - Record.__init__()
- parse()

模块内容¶

使用来自SwissProt的sprotXX.dat文件的代码。

https://web.expasy.org/docs/userman.html

班级：

记录保存SwissProt数据。
Reference保存来自SwissProt记录的引用数据。

功能：

读取一条SwissProt记录
解析读取的多个SwissProt记录

exception Bio.SwissProt.SwissProtParserError(*args, line=None)¶

基类：ValueError

分析SwissProt文件时出错。

__init__(*args, line=None)¶: 使用有问题的行创建一个SwissProtParserError对象。

class Bio.SwissProt.Record¶

基类：object

保存来自SwissProt记录的信息。

属性：

Entry_Name此条目的名称，例如RL1_ECOLI。
DATA_CLASS‘标准’或‘初步’。
分子类型分子的类型，‘PRT’，
Sequence_Length残基数量。
加入编号的加入列表，例如 [“P00321”]
已创建(日期，发布)的元组。
SEQUENCE_UPDATE(日期，发布)的元组。
ANNOTATION_UPDATE(日期，发布)的元组。
说明-自由格式说明。
基因名称基因名称。有关说明，请参阅userman.txt。
有机体是序列的来源。
细胞器序列的起源。
有机体分类：分类学上的分类。字符串列表。(http://www.ncbi.nlm.nih.gov/Taxonomy/))
taxonomy_id NCBI分类id的列表。
HOST_ORACLY病毒宿主(如果有的话)的名称列表。
host_taxonomy_id主机的NCBI分类ID列表(如果有)。
引用对象的引用列表。
字符串的注释列表。
元组的交叉引用列表(db，id1 [，id2] [，id3] )。请看文档。
关键字关键字列表。
功能元组列表(键名称、从、到、说明)。From和To可以是余数的整数、‘<’、‘>’或‘？’
PROTEN_EXISTING数值，描述蛋白质存在的证据。
序列信息元组(长度，分子量，CRC32值)
对序列进行排序。

示例

>>> from Bio import SwissProt
>>> example_filename = "SwissProt/sp008"
>>> with open(example_filename) as handle:
...     records = SwissProt.parse(handle)
...     for record in records:
...         print(record.entry_name)
...         print(",".join(record.accessions))
...         print(record.keywords)
...         print(repr(record.organism))
...         print(record.sequence[:20] + "...")
...
1A02_HUMAN
P01892,P06338,P30514,P30444,P30445,P30446,Q29680,Q29899,Q95352,Q29837,Q95380
['MHC I', 'Transmembrane', 'Glycoprotein', 'Signal', 'Polymorphism', '3D-structure']
'Homo sapiens (Human).'
MAVMAPRTLVLLLSGALALT...

__init__()¶: 初始化类。

class Bio.SwissProt.Reference¶

基类：object

在SwissProt条目中保存来自一个引用的信息。

属性：

编号条目中的引用编号。
证据证据码。字符串列表。
职位描述的是工作范围。字符串列表。
备注：备注。(令牌，文本)的列表。
引用引用。(数据库名，标识符)的列表。
作者这部作品的作者。
作品的标题标题。
地点这项工作的引文。

__init__()¶: 初始化类。

class Bio.SwissProt.FeatureTable(location=None, type='', location_operator='', strand=None, id='<unknown id>', qualifiers=None, sub_features=None, ref=None, ref_db=None)¶

基类：SeqFeature

存储序列特定区域的特征注释。

这是在Bio.SeqFeature中定义的SeqFeature的子类，其中属性的用法如下：

location ：要素在规范或等形式序列上的位置；该位置存储为在Bio.SeqFeature中定义的FeatureLocation的实例，其中ref属性设置为引用定义要素的规范或等形式序列的等形式ID

id ：唯一且稳定的标识符(FTId)，仅提供给属于CARBOHYD、CHAIN、PINE、PROPEP、VARIANT或VAR_SEQ类型的要素

type ：指示UniProt知识库文档定义的功能类型：

ACT_SITE：与酶活性有关的氨基酸

结合：任何化学基团的结合位点

CARBOHYD：糖基化位点；提供GlyConnect数据库的FTId标识符(如果在那里进行了注释

ca_bind：钙结合区

链：成熟蛋白质中的多肽链

盘绕：盘绕区域

COMPBIAS：成分偏向区域

冲突：不同的来源报告不同的序列

CROSSLNK：转位后形成的氨基酸键

DISULFID：二硫键

DNA_BIND：DNA结合区

域：域，定义为组织成特征性三维结构或折叠的二级结构的特定组合

init_met：引发剂蛋氨酸

膜内区域：位于膜内而不与膜相交的区域。

螺旋：α-、3(10)-或π-螺旋二级结构

脂质：脂质部分的共价结合

金属：金属离子的结合位置

mod_res：残留物的翻译后修改(PTM)，由UniProt网站上的ptmlist.txt文档定义的受控词汇表进行注释

基序：具有生物学意义的短序列基序

诱变剂：通过诱变实验改变的位点

NON_CONS：非连续余数

Non_std：非标准氨基酸

NON_TER：序列末端的残基不是末端残基

NP_BIND：核苷酸磷酸结合区

肽：释放的活性成熟多肽

PROPEP：任何经过处理的前肽

Region：序列中的感兴趣区域

重复：内部序列重复

信号：信号序列(前肽)

站点：未由另一个功能键表示的感兴趣的氨基酸站点

链：β链二级结构；要么是氢键延伸的β链，要么是孤立的β桥中的残基

TOPO_DOM：拓扑域

转运：转运肽(线粒体、叶绿体、类囊体体、蓝细胞、过氧化物酶体等)

TRANSMEM：跨膜区

转弯：H键车削(3圈、4圈或5圈)

不确定：序列中的不确定性

VARIANT：序列变体；FTID用于人类(类人猿和人类)的蛋白质序列变体

VAR_SEQ：通过选择性剪接、选择性启动子使用、选择性起始或核糖体移码产生的序列变体

Zn_Fing：锌指区域

限定词附加信息词典，可能包括特征证据和自由文本注释。虽然SwissProt包含功能标识符代码(FTId)作为限定符，但它被存储为FeatureTable对象的属性ID。

Bio.SwissProt.parse(source)¶

从文件中读取多个SwissProt记录。

参数源是类似文件的对象或文件的路径。

返回一个生成器对象，该对象生成Bio.SwissProt.Record()对象。

Bio.SwissProt.read(source)¶

从文件中读取一条SwissProt记录。

参数源是类似文件的对象或文件的路径。

返回记录()对象。