Bio.SearchIO.FastaIO模块

Bio.SearchIO对Bill Pearson的Fasta工具的支持。

此模块添加了对解析FASTA输出的支持。FASTA是一套程序,它通过搜索数据库或识别局部复制来查找蛋白质或核苷酸序列之间的局部或全球相似性区域。

Bio.SearchIO.FastaIO在以下Fasta口味和版本上进行了测试:

  • 口味:Fasta,ssearch,tfast x

  • 版本:35、36

其他口味和/或版本可能会引入一些错误。如果您发现此类问题,请向Biopython的错误跟踪器提交错误报告。

有关FASTA的更多信息,请访问以下链接:

支持的格式

FastaIO支持解析和索引由-m10标志触发的Fasta输出。其他模仿其他程序的格式(例如,使用-m8标志的BLAST表格格式)可能是可解析的,但是可以使用SearchIO的其他解析器(在本例中,使用‘blast-tab’解析器)。

FASTA-M10

请注意,在FASTA-M10输出中,来自不同链的HSP被认为来自不同的命中。它们在命中表中作为两个单独的条目列出。FastaIO认识到这一点,并将具有相同命中ID的HSP分组到单个命中对象中,而不考虑链。

FASTA有时还会输出与HSP匹配相邻的额外序列。这些额外的序列被FastaIO丢弃。仅提取包含实际序列匹配的区域。

提供了以下对象属性:

对象

属性

价值

QueryResult

描述

查询序列描述

ID号

查询序列ID

计划

Fasta口味

seq_len

查询序列全长

目标

目标搜索数据库

版本

FASTA版本

命中

seq_len

命中序列的完整长度

HSP

位分数

*_位线

eValue

*_期望行

ident_pct

*_ident行

init1_score

*_init1行

initn_score

*_initn行

opt_score

*_opt line, * _s-w选项行

pos_pct

*_SIM线

sw_score

*_分数线

z_score

*_z-分数线

HSPFragment(也通过HSP)

aln_annotation

ALCONS挡路(如果存在)(_O)

命中

命中序列

hit_end

命中序列结束坐标

hit_start

命中序列开始坐标

hit_strand

命中序列链

查询

查询序列

query_end

查询序列结束坐标

query_start

查询序列起始坐标

query_strand

查询序列链

class Bio.SearchIO.FastaIO.FastaM10Parser(handle, _FastaM10Parser__parse_hit_table=False)

基类:object

比尔皮尔逊的FASTA套件的-m10输出的解析器。

__init__(handle, _FastaM10Parser__parse_hit_table=False)

初始化类。

__iter__()

迭代FastaM10Parser对象会产生查询结果。

class Bio.SearchIO.FastaIO.FastaM10Indexer(filename)

基类:SearchIndexer

比尔皮尔逊的Fasta套装的-m 10输出的索引器类。

__init__(filename)

初始化类。

__iter__()

迭代FastaM10Indexer;生成查询结果的键、起始偏移量、偏移量长度。

get_raw(offset)

以字节字符串的形式返回文件中的原始记录。

__abstractmethods__ = frozenset({})