Bio.Blast. NCBIML模块
用于处理BLASTML输出的代码。
AMPS SQL DART文件可在NCBI网站上获取:https://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd
保存RST输出的记录类是:
类别:爆炸 保存了爆炸式搜索的所有信息。PSIBBlast 保存来自psi-blast搜索的所有信息。
报头 保存标题中的信息。描述 保存有关一个点击描述的信息。对准 保存有关一次对齐命中的信息。HSP 保存有关一个热休克蛋白的信息。MultipleAlliance保存有关多重对齐的信息。数据库报告 保存数据库报告中的信息。参数 保存参数中的信息。
- Bio.Blast.NCBIXML.fmt_(value, format_spec='%s', default_str='<unknown>')
确保给定值正确地格式为字符串。
- class Bio.Blast.NCBIXML.Header
基类:
object
从爆炸头中提取信息。
成员:申请 生成此数据的AMPS风味的名称。版本 使用的爆炸版本。日期 此数据的生成日期。参考 爆炸参考。
查询 查询序列的名称。查询字母 查询序列中的字母数。 (int)
数据库 数据库的名称。data_series数据库中的序列数。 (int)数据库_信件 数据库中的字母数。 (int)
- __init__()
初始化课程。
- __firstlineno__ = 47
- __static_attributes__ = ('application', 'database', 'database_letters', 'database_sequences', 'date', 'query', 'query_letters', 'reference', 'version')
- class Bio.Blast.NCBIXML.Description
基类:
object
在描述部分中存储有关一次点击的信息。
成员:职务 标题的命中。评分 位数。 (int)比特 有点分数。(浮动)e E值。 (float)num_alignations同一主题的对齐数量。 (int)
- __init__()
初始化课程。
- __str__()
以字符串形式返回描述。
- __firstlineno__ = 80
- __static_attributes__ = ('bits', 'e', 'num_alignments', 'score', 'title')
- class Bio.Blast.NCBIXML.DescriptionExt
基类:
Description
BLASTML版本2的扩展描述记录。
成员:物品 描述列表扩展项
- __init__()
初始化课程。
- append_item(item)
添加描述扩展记录。
- __annotations__ = {}
- __firstlineno__ = 104
- __static_attributes__ = ('items', 'title')
- class Bio.Blast.NCBIXML.DescriptionExtItem
基类:
object
将有关一条记录的信息存储在BLASTML版本2的命中描述中。
成员:id 数据库标识符标题 标题的命中。
- __init__()
初始化课程。
- __str__()
以字符串形式返回描述标识符和标题。
- __firstlineno__ = 124
- __static_attributes__ = ('accession', 'id', 'sciname', 'taxid', 'title')
- class Bio.Blast.NCBIXML.Alignment
基类:
object
在对齐部分中存储有关一次点击的信息。
成员:职务 名字点击id 点击标识符。(str)hit_dev 点击定义。(str)长度 长度 (int)HSPs 热休克对象列表。
- __init__()
初始化课程。
- __str__()
以格式化字符串的形式返回RST对齐方式。
- __firstlineno__ = 145
- __static_attributes__ = ('hit_def', 'hit_id', 'hsps', 'length', 'title')
- class Bio.Blast.NCBIXML.HSP
基类:
object
存储有关对齐命中中一个hSP的信息。
- 成员:
评分 命中率 (浮动)
比特 该分数的位数。 (浮动)
想到 期待价值。 (浮动)
num_alignations同一主题的路线数。 (int)
身份 如果使用HTML解析器,则为身份数(int)。如果使用(过时)纯文本解析器,则标识数/总数对齐(int,int)。
阳性 如果使用HTML解析器,则为正数(int)。如果使用(过时的)纯文本解析器,则为正数/总对齐的二元组(int,int)。
差距 如果使用HTML解析器,则需要间隔数(int)。如果使用(过时)纯文本解析器,则为间隔数/总对齐的二元组(int,int)。
对齐长度 路线的长度。(int)
链 (查询、目标)链的二元组。
帧 1或2个帧位移的二元组,具体取决于口味。
查询 查询序列。
查询_开始 查询序列的开始残基。 (1-基于)
查询_end 查询序列的结束残基。 (1-基于)
匹配 匹配序列。
sbjct sbjct序列。
sbjct_start sbjct序列的开始残基。 (1-基于)
sbjct_end sbjct序列的末端残基。 (1-基于)
并非所有类型的AMPS都会返回每个属性的值::
score expect identities positives strand frame BLASTP X X X X BLASTN X X X X X BLASTX X X X X X TBLASTN X X X X X TBLASTX X X X X X/X
注:对于BLASTX,查询序列显示为蛋白质序列,但编号基于核酸。 因此,编号比氨基酸残基数量大3倍。 TBLASTX中的sbjct序列以及TBLASTX中的两个序列都可以看到类似的效果。
此外,对于负帧,序列编号从select_start开始并倒计时。
- __init__()
初始化课程。
- __str__()
以格式化字符串形式返回AMPS。
- __firstlineno__ = 172
- __static_attributes__ = ('align_length', 'bits', 'expect', 'frame', 'gaps', 'identities', 'match', 'num_alignments', 'positives', 'query', 'query_end', 'query_start', 'sbjct', 'sbjct_end', 'sbjct_start', 'score', 'strand')
- class Bio.Blast.NCBIXML.MultipleAlignment
基类:
object
保存有关多重对齐的信息。
成员:对齐二元组列表(名称、开始残基、序列、结束残基)。
起始残基以1为基础。 如果该序列在多重比对中未进行比对,则它可能是空的。
- __init__()
初始化课程。
- to_generic()
为给定路线指定通用路线对象。
这不是二元组,而是从Bio.Align返回MultipleSeqEqualition对象,通过该对象可以操作和查询对象。
感谢James Casbon提供的代码。
- __firstlineno__ = 276
- __static_attributes__ = ('alignment',)
- class Bio.Blast.NCBIXML.Round
基类:
object
保存PSI-AMPS回合的信息。
成员:人数 舍入数。 (int)reused_seqs模型中的序列,再次找到。 描述对象列表。新序列 未找到序列,或低于阈值。 描述列表。比对 路线对象的列表。multiple_alignment一个MultipleAlignment对象。
- __init__()
初始化课程。
- __firstlineno__ = 322
- __static_attributes__ = ('alignments', 'multiple_alignment', 'new_seqs', 'number', 'reused_seqs')
- class Bio.Blast.NCBIXML.DatabaseReport
基类:
object
保存有关数据库报告的信息。
成员:数据库_名称 数据库名称列表。 (can拥有多个数据库)num_letters_in_data 数据库中的字母数。 (int)num_series_in_data数据库中序列数的列表。发布日期 数据库发布日期列表。ka_params (拉姆达,k,h)值的多元组。 (漂浮物)有间隙 # XXX这个设置不对!ka_params_gap (拉姆达,k,h)值的多元组。 (漂浮物)
- __init__()
初始化课程。
- __firstlineno__ = 342
- __static_attributes__ = ('database_name', 'gapped', 'ka_params', 'ka_params_gap', 'num_letters_in_database', 'num_sequences_in_database', 'posted_date')
- class Bio.Blast.NCBIXML.Parameters
基类:
object
保存有关参数的信息。
成员:矩阵 矩阵的名称。差距_处罚 两个(开放、延长)处罚。 (花车)SC_match 核苷酸-核苷酸比较的匹配分数SC_mismatch 核苷-核苷比较的错配罚分num_hits 数据库的点击次数。 (int)num_series 序列数。 (int)num_good_extends 扩展数量。 (int)num_seqs_better_e 序列数优于e值。 (int)hsps无间隙 HSP的数量更好,没有间隙。 (int)hsps_prelim_gapped在prelim测试中存在间隙的热休克蛋白数量。 (int)hsps_prelim_gapped_upped在prelim中尝试的热休克蛋白数量。 (int)hsps_gapped 存在间隙的热休克蛋白总数。 (int)查询长度 查询的长度。 (int)查询_id 查询序列的标识符。(str)数据库长度 数据库中的字母数。 (int)有效HSP长度 有效HSP长度。 (int)有效查询长度 查询的有效长度。 (int)有效数据库长度 数据库的有效长度。 (int)有效搜索空间 有效的搜索空间。 (int)effective_search_Space_used使用有效搜索空间。 (int)移码 移框窗口。 (int,float)threshold的元组 阈值 (int)窗口大小 窗口大小。 (int)dropoff_1st_pass 元组(score,bits)。 (int,float)gap_x_dropoff 二进制(分数,位)。 (int,float)gap_x_dropoff_final Tuple of(score,bits)。 (int,float)gap_trigger 二进制(分数,位)。 (int,float)blast_cutoff 二进制(分数,位)。 (int、浮动)
- __init__()
初始化课程。
- __firstlineno__ = 367
- __static_attributes__ = ('blast_cutoff', 'database_length', 'dropoff_1st_pass', 'effective_database_length', 'effective_hsp_length', 'effective_query_length', 'effective_search_space', 'effective_search_space_used', 'frameshift', 'gap_penalties', 'gap_trigger', 'gap_x_dropoff', 'gap_x_dropoff_final', 'hsps_gapped', 'hsps_no_gap', 'hsps_prelim_gapped', 'hsps_prelim_gapped_attemped', 'matrix', 'num_good_extends', 'num_hits', 'num_seqs_better_e', 'num_sequences', 'query_id', 'query_length', 'sc_match', 'sc_mismatch', 'threshold', 'window_size')
- class Bio.Blast.NCBIXML.Blast
基类:
Header
,DatabaseReport
,Parameters
初始化爆炸搜索的结果。
成员:描述 描述对象列表。比对 对齐对象列表。multiple_alignment一个MultipleAlignment对象。+ 从基本类继承的成员
- __init__()
初始化课程。
- __annotations__ = {}
- __firstlineno__ = 434
- __static_attributes__ = ('alignments', 'descriptions', 'multiple_alignment')
- class Bio.Blast.NCBIXML.PSIBlast
基类:
Header
,DatabaseReport
,Parameters
初始化blastPGP搜索的结果。
成员:回合 圆形对象列表。融合 搜索是否收敛。+ 从基本类继承的成员
- __init__()
初始化课程。
- __annotations__ = {}
- __firstlineno__ = 455
- __static_attributes__ = ('converged', 'rounds')
- class Bio.Blast.NCBIXML.BlastParser(debug=0)
基类:
_XMLparser
将XML BLAST数据解析为一个Blast对象。
解析来自BST的ML输出(不鼓励直接使用)。这(现在)返回Blast记录列表。从历史上看,它只返回了一张Blast唱片。您需要通过解析或读取函数使用它。
所有ML“action”方法都是私有方法,并且可能是:
_start_TAG
当找到开始标签时调用_end_TAG
当找到结束标签时调用
- __init__(debug=0)
初始化解析器。
- 论点:
dev- integer,要打印的调试信息量
- reset()
重置所有数据,允许重复使用BlastParser()对象。
- set_hit_id()
记录数据库序列的标识符(PRIVATE)。
- set_hit_def()
记录数据库序列的定义行(PRIVATE)。
- set_hit_accession()
记录数据库序列的访问值(PRIVATE)。
- set_hit_len()
记录击中的长度。
- __firstlineno__ = 580
- __static_attributes__ = ('_blast', '_descr', '_header', '_hit', '_hit_descr_item', '_hsp', '_method_map', '_method_name_level', '_mult_al', '_parameters', '_parser', '_records', '_value', '_xml_version')
- Bio.Blast.NCBIXML.read(handle, debug=0)
返回一个Blast记录(假设只有一个查询)。
内部使用BlastParser。
此函数适用于当您的HTML文件中只有一个BST结果时使用。
如果您期望有多个BST记录(即,如果您有多个查询序列),请使用Bio.Blast. NCBIML.parse()函数。
- Bio.Blast.NCBIXML.parse(handle, debug=0)
为每个查询返回迭代器Blast记录。
增量解析器,这是一个返回Blast记录的迭代器。 它在内部使用BlastParser。
handle -要解析调试的文件handle和ML文件- integer,要打印的调试信息量
这是一个生成器函数,可以返回多个Blast记录对象-一个对象对应给予Blast的查询序列。 文件以增量方式读取,并在读取时返回完整的记录。
应该能够应对新的AMPS 2.2.14+,它为多个查询记录提供了一个单一的ML文件。
还应该处理旧版本的HTML输出,旧版本的RST提供了多个连接在一起的ML文件(提供了严格来说无效的单个文件)。