Bio.SearchIO.FastaIO模块¶
Bio.SearchIO对Bill Pearson的Fasta工具的支持。
此模块添加了对解析FASTA输出的支持。FASTA是一套程序,它通过搜索数据库或识别局部复制来查找蛋白质或核苷酸序列之间的局部或全球相似性区域。
Bio.SearchIO.FastaIO在以下Fasta口味和版本上进行了测试:
口味:Fasta,ssearch,tfast x
版本:35、36
其他口味和/或版本可能会引入一些错误。如果您发现此类问题,请向Biopython的错误跟踪器提交错误报告。
有关FASTA的更多信息,请访问以下链接:
支持的格式¶
FastaIO支持解析和索引由-m10标志触发的Fasta输出。其他模仿其他程序的格式(例如,使用-m8标志的BLAST表格格式)可能是可解析的,但是可以使用SearchIO的其他解析器(在本例中,使用‘blast-tab’解析器)。
FASTA-M10¶
请注意,在FASTA-M10输出中,来自不同链的HSP被认为来自不同的命中。它们在命中表中作为两个单独的条目列出。FastaIO认识到这一点,并将具有相同命中ID的HSP分组到单个命中对象中,而不考虑链。
FASTA有时还会输出与HSP匹配相邻的额外序列。这些额外的序列被FastaIO丢弃。仅提取包含实际序列匹配的区域。
提供了以下对象属性:
对象 |
属性 |
价值 |
---|---|---|
QueryResult |
描述 |
查询序列描述 |
ID号 |
查询序列ID |
|
计划 |
Fasta口味 |
|
seq_len |
查询序列全长 |
|
目标 |
目标搜索数据库 |
|
版本 |
FASTA版本 |
|
命中 |
seq_len |
命中序列的完整长度 |
HSP |
位分数 |
*_位线 |
eValue |
*_期望行 |
|
ident_pct |
*_ident行 |
|
init1_score |
*_init1行 |
|
initn_score |
*_initn行 |
|
opt_score |
*_opt line, * _s-w选项行 |
|
pos_pct |
*_SIM线 |
|
sw_score |
*_分数线 |
|
z_score |
*_z-分数线 |
|
HSPFragment(也通过HSP) |
aln_annotation |
ALCONS挡路(如果存在)(_O) |
命中 |
命中序列 |
|
hit_end |
命中序列结束坐标 |
|
hit_start |
命中序列开始坐标 |
|
hit_strand |
命中序列链 |
|
查询 |
查询序列 |
|
query_end |
查询序列结束坐标 |
|
query_start |
查询序列起始坐标 |
|
query_strand |
查询序列链 |