Bio.SwissProt软件包¶
子模块¶
模块内容¶
使用来自SwissProt的sprotXX.dat文件的代码。
https://web.expasy.org/docs/userman.html
- 班级:
记录保存SwissProt数据。
Reference保存来自SwissProt记录的引用数据。
- 功能:
读取一条SwissProt记录
解析读取的多个SwissProt记录
- exception Bio.SwissProt.SwissProtParserError(*args, line=None)¶
基类:
ValueError
分析SwissProt文件时出错。
- __init__(*args, line=None)¶
使用有问题的行创建一个SwissProtParserError对象。
- class Bio.SwissProt.Record¶
基类:
object
保存来自SwissProt记录的信息。
- 属性:
Entry_Name此条目的名称,例如RL1_ECOLI。
DATA_CLASS‘标准’或‘初步’。
分子类型分子的类型,‘PRT’,
Sequence_Length残基数量。
加入编号的加入列表,例如 [“P00321”]
已创建(日期,发布)的元组。
SEQUENCE_UPDATE(日期,发布)的元组。
ANNOTATION_UPDATE(日期,发布)的元组。
说明-自由格式说明。
基因名称基因名称。有关说明,请参阅userman.txt。
有机体是序列的来源。
细胞器序列的起源。
有机体分类:分类学上的分类。字符串列表。(http://www.ncbi.nlm.nih.gov/Taxonomy/))
taxonomy_id NCBI分类id的列表。
HOST_ORACLY病毒宿主(如果有的话)的名称列表。
host_taxonomy_id主机的NCBI分类ID列表(如果有)。
引用对象的引用列表。
字符串的注释列表。
元组的交叉引用列表(db,id1 [,id2] [,id3] )。请看文档。
关键字关键字列表。
功能元组列表(键名称、从、到、说明)。From和To可以是余数的整数、‘<’、‘>’或‘?’
PROTEN_EXISTING数值,描述蛋白质存在的证据。
序列信息元组(长度,分子量,CRC32值)
对序列进行排序。
示例
>>> from Bio import SwissProt >>> example_filename = "SwissProt/sp008" >>> with open(example_filename) as handle: ... records = SwissProt.parse(handle) ... for record in records: ... print(record.entry_name) ... print(",".join(record.accessions)) ... print(record.keywords) ... print(repr(record.organism)) ... print(record.sequence[:20] + "...") ... 1A02_HUMAN P01892,P06338,P30514,P30444,P30445,P30446,Q29680,Q29899,Q95352,Q29837,Q95380 ['MHC I', 'Transmembrane', 'Glycoprotein', 'Signal', 'Polymorphism', '3D-structure'] 'Homo sapiens (Human).' MAVMAPRTLVLLLSGALALT...
- __init__()¶
初始化类。
- class Bio.SwissProt.Reference¶
基类:
object
在SwissProt条目中保存来自一个引用的信息。
- 属性:
编号条目中的引用编号。
证据证据码。字符串列表。
职位描述的是工作范围。字符串列表。
备注:备注。(令牌,文本)的列表。
引用引用。(数据库名,标识符)的列表。
作者这部作品的作者。
作品的标题标题。
地点这项工作的引文。
- __init__()¶
初始化类。
- class Bio.SwissProt.FeatureTable(location=None, type='', location_operator='', strand=None, id='<unknown id>', qualifiers=None, sub_features=None, ref=None, ref_db=None)¶
基类:
SeqFeature
存储序列特定区域的特征注释。
这是在Bio.SeqFeature中定义的SeqFeature的子类,其中属性的用法如下:
location
:要素在规范或等形式序列上的位置;该位置存储为在Bio.SeqFeature中定义的FeatureLocation的实例,其中ref属性设置为引用定义要素的规范或等形式序列的等形式IDid
:唯一且稳定的标识符(FTId),仅提供给属于CARBOHYD、CHAIN、PINE、PROPEP、VARIANT或VAR_SEQ类型的要素type
:指示UniProt知识库文档定义的功能类型:ACT_SITE:与酶活性有关的氨基酸
结合:任何化学基团的结合位点
CARBOHYD:糖基化位点;提供GlyConnect数据库的FTId标识符(如果在那里进行了注释
ca_bind:钙结合区
链:成熟蛋白质中的多肽链
盘绕:盘绕区域
COMPBIAS:成分偏向区域
冲突:不同的来源报告不同的序列
CROSSLNK:转位后形成的氨基酸键
DISULFID:二硫键
DNA_BIND:DNA结合区
域:域,定义为组织成特征性三维结构或折叠的二级结构的特定组合
init_met:引发剂蛋氨酸
膜内区域:位于膜内而不与膜相交的区域。
螺旋:α-、3(10)-或π-螺旋二级结构
脂质:脂质部分的共价结合
金属:金属离子的结合位置
mod_res:残留物的翻译后修改(PTM),由UniProt网站上的ptmlist.txt文档定义的受控词汇表进行注释
基序:具有生物学意义的短序列基序
诱变剂:通过诱变实验改变的位点
NON_CONS:非连续余数
Non_std:非标准氨基酸
NON_TER:序列末端的残基不是末端残基
NP_BIND:核苷酸磷酸结合区
肽:释放的活性成熟多肽
PROPEP:任何经过处理的前肽
Region:序列中的感兴趣区域
重复:内部序列重复
信号:信号序列(前肽)
站点:未由另一个功能键表示的感兴趣的氨基酸站点
链:β链二级结构;要么是氢键延伸的β链,要么是孤立的β桥中的残基
TOPO_DOM:拓扑域
转运:转运肽(线粒体、叶绿体、类囊体体、蓝细胞、过氧化物酶体等)
TRANSMEM:跨膜区
转弯:H键车削(3圈、4圈或5圈)
不确定:序列中的不确定性
VARIANT:序列变体;FTID用于人类(类人猿和人类)的蛋白质序列变体
VAR_SEQ:通过选择性剪接、选择性启动子使用、选择性起始或核糖体移码产生的序列变体
Zn_Fing:锌指区域
限定词附加信息词典,可能包括特征证据和自由文本注释。虽然SwissProt包含功能标识符代码(FTId)作为限定符,但它被存储为FeatureTable对象的属性ID。
- Bio.SwissProt.parse(source)¶
从文件中读取多个SwissProt记录。
参数源是类似文件的对象或文件的路径。
返回一个生成器对象,该对象生成Bio.SwissProt.Record()对象。
- Bio.SwissProt.read(source)¶
从文件中读取一条SwissProt记录。
参数源是类似文件的对象或文件的路径。
返回记录()对象。