Bio.SearchIO.HmmerIO包

子模块

模块内容

Bio.SearchIO支持HMMER输出格式。

此模块添加了对解析HMMER输出的支持。HMMER是一套实现轮廓隐马尔可夫模型的程序,用于发现蛋白质序列之间的相似性。

Bio.SearchIO.HmmerIO在以下HMMER版本和口味上进行了测试:

  • HMMER3风格:hmmscan、hmmsearch、phmmer

  • HMMER2口味:hmmpfam、hmmsearch

有关HMMER的更多信息,请访问以下链接:

支持的格式

Bio.SearchIO.HmmerIO支持以下HMMER输出格式:

  • 纯文本,v3.0-‘hmmer3-text’-解析,索引

  • 表,v3.0-‘hmmer3-tab’-解析、索引、写入

  • 域表,v3.0-‘hmmer3-domtab’*-解析、索引、写入

  • 纯文本,v2.x-‘hmmer2-text’-解析,索引

  • 对于域表输出,由于HMMER输出序列坐标的方式,您必须将生成输出的HMMER风格指定为文件格式。因此,您必须使用‘hmmscan3-domtab’、‘hmmsearch3-domtab’或‘phmmer3-domtab’作为文件格式名,而不是使用‘hmmer3-domtab’。

请注意,对于所有输出格式,HMMER使用其自己的输入和输出坐标约定。它没有使用术语“命中”或“查询”,而是使用了“嗯”或“阿里”。例如,‘hmmfrom’是HMM序列的起始坐标,而‘alifrom’是蛋白质序列的起始坐标。

HmmerIO知道这种不同的命名方案,并将相应地调整它们以适应SearchIO的对象模型。如果HmmerIO发现要解析的输出文件是由hmmsearch或phmmer编写的,则所有‘hm’坐标都将是命中坐标,而‘Ali’坐标将是查询坐标。相反,如果HMMER风格为hmmscan,则将查询‘hm’并命中‘Ali’。

这就是为什么必须使用源HMMER风格指定‘hmmer3-domtab’格式的原因。解析器需要知道哪个是命中,哪个是查询。‘hmmer3-text’的源程序信息存在于文件中,而‘hmmer3-tab’不输出任何坐标。这就是为什么这两种格式都不需要像‘hmmer3-domtab’这样的直接风格规范。

还要注意,当使用域表格式编写器时,它将使用HMMER的命名约定(‘HMM’和‘ALI’),因此您编写的文件将类似于真正的HMMER程序编写的文件。

hmmer2-text和hmmer3-text

HMMER 3.0纯文本输出的解析器可以解析带对齐块(默认)或不带对齐块(带‘--noali’标志)的输出文件。如果存在对齐块,您还可以解析具有可变对齐宽度的文件(使用‘--notextw’或‘--textw’标志)。

提供了以下SearchIO对象属性。标有‘*’的行表示hmmer2文本格式中不可用的属性:

对象

属性

价值

QueryResult

加入

加入(如果有)

描述

查询序列描述

ID号

查询序列ID

计划

HMMER风味

seq_len*

查询序列全长

目标

目标搜索数据库

版本

BLAST版本

命中

偏差*

命中率偏差

位分数

命中率得分

描述

命中序列描述

domain_exp_num*

命中的预期域数(EXP列)

domain_obs_num

HIT中观察到的域数(N列)

eValue

命中级e值

ID号

命中序列ID

is_included*

布尔值,表示命中是否在包含阈值内

HSP

acc_avg*

每对齐残差的期望精度(acc列)

偏差*

热休克蛋白水平偏置

位分数

HSP级别得分

domain_index

HMMER设置的域索引

env_end*

信封的终点坐标

env_endtype*

信封末端类型(例如‘[]’、‘..’、‘[.’等)

env_start*

信封的起始坐标

eValue

HSP级别独立的e值

evalue_cond*

HSP级条件e值

hit_endtype

命中序列结束类型

is_included*

布尔值,HSP的命中率是否在包含阈值内

query_endtype

查询序列结束类型

HSPFragment(也通过HSP)

aln_annotation

对齐相似性字符串和其他批注(例如PP、CS)

aln_span

对齐片段的长度

命中

命中序列

hit_end

命中序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格

hit_start

命中序列开始坐标,可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格

hit_strand

命中序列链

查询

查询序列

query_end

查询序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格

query_start

查询序列起始坐标可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格

query_strand

查询序列链

hmmer3-制表符

提供了以下SearchIO对象属性:

对象

属性

列/值

QueryResult

加入

查询加入(如果存在)

描述

查询序列描述

ID号

查询名称

命中

加入

HIT加入

偏向

命中率偏差

位分数

命中率得分

描述

命中序列描述

cluster_num

CLU列

domain_exp_num

EXP列

domain_included_num

INC专栏

domain_obs_num

DOM列

domain_reported_num

REP列

env_num

环境列

eValue

命中级eValue

ID号

目标名称

overlap_num

OV列

region_num

REG列

HSP

偏向

最佳区域的偏差

位分数

最佳域名的位分数

eValue

最佳域名的eValue

hmmer3-domtab

要解析域表文件,必须使用生成该文件的HMMER风格。因此,不要使用‘hmmer3-domtab’,而要使用‘hmmsearch3-domtab’、‘hmmscan3-domtab’或‘phmmer3-domtab’。

提供了以下SearchIO对象属性:

对象

属性

价值

QueryResult

加入

加入

描述

查询序列描述

ID号

查询序列ID

seq_len

查询序列全长

命中

加入

加入

偏向

命中率偏差

位分数

命中率得分

描述

命中序列描述

eValue

命中级e值

ID号

命中序列ID

seq_len

命中序列的长度或HMM

HSP

acc_avg

每对齐残差的期望精度(acc列)

偏向

热休克蛋白水平偏置

位分数

HSP级别得分

domain_index

HMMER设置的域索引

env_end

信封的终点坐标

env_start

信封的起始坐标

eValue

HSP级别独立的e值

evalue_cond

HSP级条件e值

HSPFragment(也通过HSP)

hit_end

命中序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格

hit_start

命中序列开始坐标,可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格

hit_strand

命中序列链

query_end

查询序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格

query_start

查询序列起始坐标可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格

query_strand

查询序列链