Bio.Blast. NCBIML模块

用于处理BLASTML输出的代码。

AMPS SQL DART文件可在NCBI网站上获取:https://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd

保存RST输出的记录类是:

类别:爆炸 保存了爆炸式搜索的所有信息。PSIBBlast 保存来自psi-blast搜索的所有信息。

报头 保存标题中的信息。描述 保存有关一个点击描述的信息。对准 保存有关一次对齐命中的信息。HSP 保存有关一个热休克蛋白的信息。MultipleAlliance保存有关多重对齐的信息。数据库报告 保存数据库报告中的信息。参数 保存参数中的信息。

Bio.Blast.NCBIXML.fmt_(value, format_spec='%s', default_str='<unknown>')

确保给定值正确地格式为字符串。

class Bio.Blast.NCBIXML.Header

基类:object

从爆炸头中提取信息。

成员:申请 生成此数据的AMPS风味的名称。版本 使用的爆炸版本。日期 此数据的生成日期。参考 爆炸参考。

查询 查询序列的名称。查询字母 查询序列中的字母数。 (int)

数据库 数据库的名称。data_series数据库中的序列数。 (int)数据库_信件 数据库中的字母数。 (int)

__init__()

初始化课程。

__firstlineno__ = 47
__static_attributes__ = ('application', 'database', 'database_letters', 'database_sequences', 'date', 'query', 'query_letters', 'reference', 'version')
class Bio.Blast.NCBIXML.Description

基类:object

在描述部分中存储有关一次点击的信息。

成员:职务 标题的命中。评分 位数。 (int)比特 有点分数。(浮动)e E值。 (float)num_alignations同一主题的对齐数量。 (int)

__init__()

初始化课程。

__str__()

以字符串形式返回描述。

__firstlineno__ = 80
__static_attributes__ = ('bits', 'e', 'num_alignments', 'score', 'title')
class Bio.Blast.NCBIXML.DescriptionExt

基类:Description

BLASTML版本2的扩展描述记录。

成员:物品 描述列表扩展项

__init__()

初始化课程。

append_item(item)

添加描述扩展记录。

__annotations__ = {}
__firstlineno__ = 104
__static_attributes__ = ('items', 'title')
class Bio.Blast.NCBIXML.DescriptionExtItem

基类:object

将有关一条记录的信息存储在BLASTML版本2的命中描述中。

成员:id 数据库标识符标题 标题的命中。

__init__()

初始化课程。

__str__()

以字符串形式返回描述标识符和标题。

__firstlineno__ = 124
__static_attributes__ = ('accession', 'id', 'sciname', 'taxid', 'title')
class Bio.Blast.NCBIXML.Alignment

基类:object

在对齐部分中存储有关一次点击的信息。

成员:职务 名字点击id 点击标识符。(str)hit_dev 点击定义。(str)长度 长度 (int)HSPs 热休克对象列表。

__init__()

初始化课程。

__str__()

以格式化字符串的形式返回RST对齐方式。

__firstlineno__ = 145
__static_attributes__ = ('hit_def', 'hit_id', 'hsps', 'length', 'title')
class Bio.Blast.NCBIXML.HSP

基类:object

存储有关对齐命中中一个hSP的信息。

成员:
  • 评分 命中率 (浮动)

  • 比特 该分数的位数。 (浮动)

  • 想到 期待价值。 (浮动)

  • num_alignations同一主题的路线数。 (int)

  • 身份 如果使用HTML解析器,则为身份数(int)。如果使用(过时)纯文本解析器,则标识数/总数对齐(int,int)。

  • 阳性 如果使用HTML解析器,则为正数(int)。如果使用(过时的)纯文本解析器,则为正数/总对齐的二元组(int,int)。

  • 差距 如果使用HTML解析器,则需要间隔数(int)。如果使用(过时)纯文本解析器,则为间隔数/总对齐的二元组(int,int)。

  • 对齐长度 路线的长度。(int)

  • 链 (查询、目标)链的二元组。

  • 帧 1或2个帧位移的二元组,具体取决于口味。

  • 查询 查询序列。

  • 查询_开始 查询序列的开始残基。 (1-基于)

  • 查询_end 查询序列的结束残基。 (1-基于)

  • 匹配 匹配序列。

  • sbjct sbjct序列。

  • sbjct_start sbjct序列的开始残基。 (1-基于)

  • sbjct_end sbjct序列的末端残基。 (1-基于)

并非所有类型的AMPS都会返回每个属性的值::

          score     expect     identities   positives    strand  frame
BLASTP     X          X            X            X
BLASTN     X          X            X            X          X
BLASTX     X          X            X            X                  X
TBLASTN    X          X            X            X                  X
TBLASTX    X          X            X            X                 X/X

注:对于BLASTX,查询序列显示为蛋白质序列,但编号基于核酸。 因此,编号比氨基酸残基数量大3倍。 TBLASTX中的sbjct序列以及TBLASTX中的两个序列都可以看到类似的效果。

此外,对于负帧,序列编号从select_start开始并倒计时。

__init__()

初始化课程。

__str__()

以格式化字符串形式返回AMPS。

__firstlineno__ = 172
__static_attributes__ = ('align_length', 'bits', 'expect', 'frame', 'gaps', 'identities', 'match', 'num_alignments', 'positives', 'query', 'query_end', 'query_start', 'sbjct', 'sbjct_end', 'sbjct_start', 'score', 'strand')
class Bio.Blast.NCBIXML.MultipleAlignment

基类:object

保存有关多重对齐的信息。

成员:对齐二元组列表(名称、开始残基、序列、结束残基)。

起始残基以1为基础。 如果该序列在多重比对中未进行比对,则它可能是空的。

__init__()

初始化课程。

to_generic()

为给定路线指定通用路线对象。

这不是二元组,而是从Bio.Align返回MultipleSeqEqualition对象,通过该对象可以操作和查询对象。

感谢James Casbon提供的代码。

__firstlineno__ = 276
__static_attributes__ = ('alignment',)
class Bio.Blast.NCBIXML.Round

基类:object

保存PSI-AMPS回合的信息。

成员:人数 舍入数。 (int)reused_seqs模型中的序列,再次找到。 描述对象列表。新序列 未找到序列,或低于阈值。 描述列表。比对 路线对象的列表。multiple_alignment一个MultipleAlignment对象。

__init__()

初始化课程。

__firstlineno__ = 322
__static_attributes__ = ('alignments', 'multiple_alignment', 'new_seqs', 'number', 'reused_seqs')
class Bio.Blast.NCBIXML.DatabaseReport

基类:object

保存有关数据库报告的信息。

成员:数据库_名称 数据库名称列表。 (can拥有多个数据库)num_letters_in_data 数据库中的字母数。 (int)num_series_in_data数据库中序列数的列表。发布日期 数据库发布日期列表。ka_params (拉姆达,k,h)值的多元组。 (漂浮物)有间隙 # XXX这个设置不对!ka_params_gap (拉姆达,k,h)值的多元组。 (漂浮物)

__init__()

初始化课程。

__firstlineno__ = 342
__static_attributes__ = ('database_name', 'gapped', 'ka_params', 'ka_params_gap', 'num_letters_in_database', 'num_sequences_in_database', 'posted_date')
class Bio.Blast.NCBIXML.Parameters

基类:object

保存有关参数的信息。

成员:矩阵 矩阵的名称。差距_处罚 两个(开放、延长)处罚。 (花车)SC_match 核苷酸-核苷酸比较的匹配分数SC_mismatch 核苷-核苷比较的错配罚分num_hits 数据库的点击次数。 (int)num_series 序列数。 (int)num_good_extends 扩展数量。 (int)num_seqs_better_e 序列数优于e值。 (int)hsps无间隙 HSP的数量更好,没有间隙。 (int)hsps_prelim_gapped在prelim测试中存在间隙的热休克蛋白数量。 (int)hsps_prelim_gapped_upped在prelim中尝试的热休克蛋白数量。 (int)hsps_gapped 存在间隙的热休克蛋白总数。 (int)查询长度 查询的长度。 (int)查询_id 查询序列的标识符。(str)数据库长度 数据库中的字母数。 (int)有效HSP长度 有效HSP长度。 (int)有效查询长度 查询的有效长度。 (int)有效数据库长度 数据库的有效长度。 (int)有效搜索空间 有效的搜索空间。 (int)effective_search_Space_used使用有效搜索空间。 (int)移码 移框窗口。 (int,float)threshold的元组 阈值 (int)窗口大小 窗口大小。 (int)dropoff_1st_pass 元组(score,bits)。 (int,float)gap_x_dropoff 二进制(分数,位)。 (int,float)gap_x_dropoff_final Tuple of(score,bits)。 (int,float)gap_trigger 二进制(分数,位)。 (int,float)blast_cutoff 二进制(分数,位)。 (int、浮动)

__init__()

初始化课程。

__firstlineno__ = 367
__static_attributes__ = ('blast_cutoff', 'database_length', 'dropoff_1st_pass', 'effective_database_length', 'effective_hsp_length', 'effective_query_length', 'effective_search_space', 'effective_search_space_used', 'frameshift', 'gap_penalties', 'gap_trigger', 'gap_x_dropoff', 'gap_x_dropoff_final', 'hsps_gapped', 'hsps_no_gap', 'hsps_prelim_gapped', 'hsps_prelim_gapped_attemped', 'matrix', 'num_good_extends', 'num_hits', 'num_seqs_better_e', 'num_sequences', 'query_id', 'query_length', 'sc_match', 'sc_mismatch', 'threshold', 'window_size')
class Bio.Blast.NCBIXML.Blast

基类:Header, DatabaseReport, Parameters

初始化爆炸搜索的结果。

成员:描述 描述对象列表。比对 对齐对象列表。multiple_alignment一个MultipleAlignment对象。+ 从基本类继承的成员

__init__()

初始化课程。

__annotations__ = {}
__firstlineno__ = 434
__static_attributes__ = ('alignments', 'descriptions', 'multiple_alignment')
class Bio.Blast.NCBIXML.PSIBlast

基类:Header, DatabaseReport, Parameters

初始化blastPGP搜索的结果。

成员:回合 圆形对象列表。融合 搜索是否收敛。+ 从基本类继承的成员

__init__()

初始化课程。

__annotations__ = {}
__firstlineno__ = 455
__static_attributes__ = ('converged', 'rounds')
class Bio.Blast.NCBIXML.BlastParser(debug=0)

基类:_XMLparser

将XML BLAST数据解析为一个Blast对象。

解析来自BST的ML输出(不鼓励直接使用)。这(现在)返回Blast记录列表。从历史上看,它只返回了一张Blast唱片。您需要通过解析或读取函数使用它。

所有ML“action”方法都是私有方法,并且可能是:

  • _start_TAG 当找到开始标签时调用

  • _end_TAG 当找到结束标签时调用

__init__(debug=0)

初始化解析器。

论点:
  • dev- integer,要打印的调试信息量

reset()

重置所有数据,允许重复使用BlastParser()对象。

set_hit_id()

记录数据库序列的标识符(PRIVATE)。

set_hit_def()

记录数据库序列的定义行(PRIVATE)。

set_hit_accession()

记录数据库序列的访问值(PRIVATE)。

set_hit_len()

记录击中的长度。

__firstlineno__ = 580
__static_attributes__ = ('_blast', '_descr', '_header', '_hit', '_hit_descr_item', '_hsp', '_method_map', '_method_name_level', '_mult_al', '_parameters', '_parser', '_records', '_value', '_xml_version')
Bio.Blast.NCBIXML.read(handle, debug=0)

返回一个Blast记录(假设只有一个查询)。

内部使用BlastParser。

此函数适用于当您的HTML文件中只有一个BST结果时使用。

如果您期望有多个BST记录(即,如果您有多个查询序列),请使用Bio.Blast. NCBIML.parse()函数。

Bio.Blast.NCBIXML.parse(handle, debug=0)

为每个查询返回迭代器Blast记录。

增量解析器,这是一个返回Blast记录的迭代器。 它在内部使用BlastParser。

handle -要解析调试的文件handle和ML文件- integer,要打印的调试信息量

这是一个生成器函数,可以返回多个Blast记录对象-一个对象对应给予Blast的查询序列。 文件以增量方式读取,并在读取时返回完整的记录。

应该能够应对新的AMPS 2.2.14+,它为多个查询记录提供了一个单一的ML文件。

还应该处理旧版本的HTML输出,旧版本的RST提供了多个连接在一起的ML文件(提供了严格来说无效的单个文件)。