Bio.SearchIO.HmmerIO包¶
子模块¶
- Bio.SearchIO.HmmerIO.hmmer2_Text模块
Hmmer2TextParser
Hmmer2TextParser.__init__()
Hmmer2TextParser.__iter__()
Hmmer2TextParser.read_next()
Hmmer2TextParser.push_back()
Hmmer2TextParser.parse_key_value()
Hmmer2TextParser.parse_preamble()
Hmmer2TextParser.parse_qresult()
Hmmer2TextParser.parse_hits()
Hmmer2TextParser.parse_hsps()
Hmmer2TextParser.parse_hsp_alignments()
Hmmer2TextIndexer
- Bio.SearchIO.HmmerIO.hmmer3_domtab模块
- Bio.SearchIO.HmmerIO.hmmer3_tab模块
- Bio.SearchIO.HmmerIO.hmmer3_Text模块
模块内容¶
Bio.SearchIO支持HMMER输出格式。
此模块添加了对解析HMMER输出的支持。HMMER是一套实现轮廓隐马尔可夫模型的程序,用于发现蛋白质序列之间的相似性。
Bio.SearchIO.HmmerIO在以下HMMER版本和口味上进行了测试:
HMMER3风格:hmmscan、hmmsearch、phmmer
HMMER2口味:hmmpfam、hmmsearch
- 有关HMMER的更多信息,请访问以下链接:
支持的格式¶
Bio.SearchIO.HmmerIO支持以下HMMER输出格式:
纯文本,v3.0-‘hmmer3-text’-解析,索引
表,v3.0-‘hmmer3-tab’-解析、索引、写入
域表,v3.0-‘hmmer3-domtab’*-解析、索引、写入
纯文本,v2.x-‘hmmer2-text’-解析,索引
对于域表输出,由于HMMER输出序列坐标的方式,您必须将生成输出的HMMER风格指定为文件格式。因此,您必须使用‘hmmscan3-domtab’、‘hmmsearch3-domtab’或‘phmmer3-domtab’作为文件格式名,而不是使用‘hmmer3-domtab’。
请注意,对于所有输出格式,HMMER使用其自己的输入和输出坐标约定。它没有使用术语“命中”或“查询”,而是使用了“嗯”或“阿里”。例如,‘hmmfrom’是HMM序列的起始坐标,而‘alifrom’是蛋白质序列的起始坐标。
HmmerIO知道这种不同的命名方案,并将相应地调整它们以适应SearchIO的对象模型。如果HmmerIO发现要解析的输出文件是由hmmsearch或phmmer编写的,则所有‘hm’坐标都将是命中坐标,而‘Ali’坐标将是查询坐标。相反,如果HMMER风格为hmmscan,则将查询‘hm’并命中‘Ali’。
这就是为什么必须使用源HMMER风格指定‘hmmer3-domtab’格式的原因。解析器需要知道哪个是命中,哪个是查询。‘hmmer3-text’的源程序信息存在于文件中,而‘hmmer3-tab’不输出任何坐标。这就是为什么这两种格式都不需要像‘hmmer3-domtab’这样的直接风格规范。
还要注意,当使用域表格式编写器时,它将使用HMMER的命名约定(‘HMM’和‘ALI’),因此您编写的文件将类似于真正的HMMER程序编写的文件。
hmmer2-text和hmmer3-text¶
HMMER 3.0纯文本输出的解析器可以解析带对齐块(默认)或不带对齐块(带‘--noali’标志)的输出文件。如果存在对齐块,您还可以解析具有可变对齐宽度的文件(使用‘--notextw’或‘--textw’标志)。
提供了以下SearchIO对象属性。标有‘*’的行表示hmmer2文本格式中不可用的属性:
对象 |
属性 |
价值 |
---|---|---|
QueryResult |
加入 |
加入(如果有) |
描述 |
查询序列描述 |
|
ID号 |
查询序列ID |
|
计划 |
HMMER风味 |
|
seq_len* |
查询序列全长 |
|
目标 |
目标搜索数据库 |
|
版本 |
BLAST版本 |
|
命中 |
偏差* |
命中率偏差 |
位分数 |
命中率得分 |
|
描述 |
命中序列描述 |
|
domain_exp_num* |
命中的预期域数(EXP列) |
|
domain_obs_num |
HIT中观察到的域数(N列) |
|
eValue |
命中级e值 |
|
ID号 |
命中序列ID |
|
is_included* |
布尔值,表示命中是否在包含阈值内 |
|
HSP |
acc_avg* |
每对齐残差的期望精度(acc列) |
偏差* |
热休克蛋白水平偏置 |
|
位分数 |
HSP级别得分 |
|
domain_index |
HMMER设置的域索引 |
|
env_end* |
信封的终点坐标 |
|
env_endtype* |
信封末端类型(例如‘[]’、‘..’、‘[.’等) |
|
env_start* |
信封的起始坐标 |
|
eValue |
HSP级别独立的e值 |
|
evalue_cond* |
HSP级条件e值 |
|
hit_endtype |
命中序列结束类型 |
|
is_included* |
布尔值,HSP的命中率是否在包含阈值内 |
|
query_endtype |
查询序列结束类型 |
|
HSPFragment(也通过HSP) |
aln_annotation |
对齐相似性字符串和其他批注(例如PP、CS) |
aln_span |
对齐片段的长度 |
|
命中 |
命中序列 |
|
hit_end |
命中序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格 |
|
hit_start |
命中序列开始坐标,可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格 |
|
hit_strand |
命中序列链 |
|
查询 |
查询序列 |
|
query_end |
查询序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格 |
|
query_start |
查询序列起始坐标可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格 |
|
query_strand |
查询序列链 |
hmmer3-制表符¶
提供了以下SearchIO对象属性:
对象 |
属性 |
列/值 |
---|---|---|
QueryResult |
加入 |
查询加入(如果存在) |
描述 |
查询序列描述 |
|
ID号 |
查询名称 |
|
命中 |
加入 |
HIT加入 |
偏向 |
命中率偏差 |
|
位分数 |
命中率得分 |
|
描述 |
命中序列描述 |
|
cluster_num |
CLU列 |
|
domain_exp_num |
EXP列 |
|
domain_included_num |
INC专栏 |
|
domain_obs_num |
DOM列 |
|
domain_reported_num |
REP列 |
|
env_num |
环境列 |
|
eValue |
命中级eValue |
|
ID号 |
目标名称 |
|
overlap_num |
OV列 |
|
region_num |
REG列 |
|
HSP |
偏向 |
最佳区域的偏差 |
位分数 |
最佳域名的位分数 |
|
eValue |
最佳域名的eValue |
hmmer3-domtab¶
要解析域表文件,必须使用生成该文件的HMMER风格。因此,不要使用‘hmmer3-domtab’,而要使用‘hmmsearch3-domtab’、‘hmmscan3-domtab’或‘phmmer3-domtab’。
提供了以下SearchIO对象属性:
对象 |
属性 |
价值 |
---|---|---|
QueryResult |
加入 |
加入 |
描述 |
查询序列描述 |
|
ID号 |
查询序列ID |
|
seq_len |
查询序列全长 |
|
命中 |
加入 |
加入 |
偏向 |
命中率偏差 |
|
位分数 |
命中率得分 |
|
描述 |
命中序列描述 |
|
eValue |
命中级e值 |
|
ID号 |
命中序列ID |
|
seq_len |
命中序列的长度或HMM |
|
HSP |
acc_avg |
每对齐残差的期望精度(acc列) |
偏向 |
热休克蛋白水平偏置 |
|
位分数 |
HSP级别得分 |
|
domain_index |
HMMER设置的域索引 |
|
env_end |
信封的终点坐标 |
|
env_start |
信封的起始坐标 |
|
eValue |
HSP级别独立的e值 |
|
evalue_cond |
HSP级条件e值 |
|
HSPFragment(也通过HSP) |
hit_end |
命中序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格 |
hit_start |
命中序列开始坐标,可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格 |
|
hit_strand |
命中序列链 |
|
query_end |
查询序列结束坐标,可以是‘hmmto’或‘alito’,具体取决于HMMER风格 |
|
query_start |
查询序列起始坐标可以是‘hmmfrom’或‘alifrom’,具体取决于HMMER风格 |
|
query_strand |
查询序列链 |