Bio.SearchIO.HmmerIO包

子模块

模块内容

SearchIO支持HMMER输出格式。

该模块添加了对解析HMMER输出的支持。HMMER是一套实现隐藏马尔科夫模型的程序,以发现蛋白质序列之间的相似性。

Bio.SearchIO.HmmerIO在以下HMMER版本和口味上进行了测试:

  • HMMER 3口味:hmmcan、hmmsearch、phmmmer

  • HMMER 2 flavors:hmmpfam,hmmsearch

有关HMMER的更多信息可通过以下链接获取:

支持的格式

Bio.SearchIO.HmmerIO支持以下HMMER输出格式:

  • 纯文本,v3.0 - “hmmer 3-text” - 解析、索引

  • 表格,v3.0 - “hmmer 3-tab” - 解析、索引、编写

  • 域表,v3.0 -“hmmer 3-domtab”*-解析、索引、编写

  • 纯文本,v2.x - “hmmer 2-text” - 解析、索引

  • 对于域表输出,由于HMMER输出序列坐标的方式,您必须指定产生输出的HMMER风味作为文件格式。因此,您必须使用“hmmer 3-domtab”,而不是使用“hmmscan 3-domtab”、“hmmsearch 3-domtab”或“phmmer 3-domtab”作为文件格式名称。

请注意,对于所有输出格式,HMMER使用其自己的输入和输出坐标约定。它没有使用“hit”或“query”一词,而是使用“hmm”或“ali”。例如,“hmmfrom”是马尔科夫序列的开始坐标,而“alifrom”是蛋白质序列的开始坐标。

HmmerIO意识到这种不同的命名方案,并将相应地调整它们以适应SearchIO的对象模型。如果HmmerIO看到要解析的输出文件是由hmmsearch或phmmer编写的,则所有“hmm”坐标将是命中坐标,“ali”坐标将是查询坐标。相反,如果HMMER口味为hmmscan,则“hmm”将被查询,“ali”将被命中。

这就是为什么“hmmer 3-domtab”格式必须与源HMMER风味一起指定。解析器需要知道哪个是命中,哪个是查询。“hmmer 3-text”在文件中包含其源程序信息,而“hmmer 3-tab”不输出任何坐标。这就是为什么这两种格式都不需要像“hmmer 3-domtab”这样的直接风味规范。

另请注意,当使用域表格式编写器时,它将使用HMMER的命名约定(“hmm”和“ali”),因此您编写的文件将与真正的HMMER程序编写的文件类似。

hmmer 2-text和hmmer 3-text

HMMER 3.0纯文本输出的解析器可以解析带有对齐块(默认)或不带有对齐块(带有“--noali”标志)的输出文件。如果存在对齐块,您还可以分析具有可变对齐宽度的文件(使用“--notextw”或“--textw”标志)。

提供了以下SearchIO对象属性。标有“*”的收件箱表示hmmer 2-text格式中不可用的属性:

对象

属性

QueryResult

加入

加入(如果存在)

描述

查询序列描述

ID

查询序列ID

程序

HMMER风味

seq_len*

查询序列的全长

目标

目标搜索数据库

版本

弹幕版本

击中

偏见 *

命中水平偏差

位得分

命中水平分数

描述

命中序列描述

domain_exp_num*

预期命中域数量(BEP列)

domain_obs_num

观察到的命中中的域数量(N列)

evalue

点击级e值

ID

命中序列ID

is_included*

布尔值,无论命中是否在包含阈值内

HSP

acc_avg*

每个对齐残基的预期准确度(acc柱)

偏见 *

hspp水平偏差

位得分

HSP水平评分

domain_index

HMMER设置的域索引

env_end*

信封的结束坐标

env_endtype*

信封结束类型(例如“['、'.. ', '[. '等)

env_start*

信封的开始坐标

evalue

HSP水平独立e值

evalue_cond*

hspp级条件e值

hit_endtype

命中序列结束类型

is_included*

布尔值,hp的命中是否在包含阈值内

query_endtype

查询序列结束类型

HSPFragment(也通过HSPs)

aln_annotation

对齐相似性字符串和其他注释(例如PP、CS)

aln_span

对齐片段长度

击中

命中序列

hit_end

命中序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格

hit_start

命中序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER口味

hit_strand

命中序列链

查询

查询序列

query_end

查询序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格

query_start

查询序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER风格

query_strand

查询序列链

hmmer 3-tab

提供了以下SearchIO对象属性:

对象

属性

列/值

QueryResult

加入

查询加入(如果存在)

描述

查询序列描述

ID

查询名称

击中

加入

点击加入

偏置

命中水平偏差

位得分

命中水平分数

描述

命中序列描述

cluster_num

克鲁专栏

domain_exp_num

经验列

domain_included_num

公司专栏

domain_obs_num

多姆专栏

domain_reported_num

代表列

env_num

En列

evalue

命中水平评估

ID

目标名称

overlap_num

越过柱

region_num

雷格列

HSP

偏置

最佳领域的偏见

位得分

最佳域名的bitscore

evalue

最佳域名的评价

hmmer 3-domtab

要解析域表文件,必须使用生成该文件的HMMER风格。因此,不要使用“hmmer 3-domtab”,而应使用“hmmsearch 3-domtab”、“hmmscan 3-domtab”或“phmmer 3-domtab”。

提供了以下SearchIO对象属性:

对象

属性

QueryResult

加入

加入

描述

查询序列描述

ID

查询序列ID

seq_len

查询序列的全长

击中

加入

加入

偏置

命中水平偏差

位得分

命中水平分数

描述

命中序列描述

evalue

点击级e值

ID

命中序列ID

seq_len

命中序列或Markov的长度

HSP

acc_avg

每个对齐残基的预期准确度(acc柱)

偏置

hspp水平偏差

位得分

HSP水平评分

domain_index

HMMER设置的域索引

env_end

信封的结束坐标

env_start

信封的开始坐标

evalue

HSP水平独立e值

evalue_cond

hspp级条件e值

HSPFragment(也通过HSPs)

hit_end

命中序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格

hit_start

命中序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER口味

hit_strand

命中序列链

query_end

查询序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格

query_start

查询序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER风格

query_strand

查询序列链