Bio.SearchIO.HmmerIO包
子模块
- Bio.SearchIO.HmmerIO.hmmer2_文本模块
Hmmer2TextParser
Hmmer2TextParser.__init__()
Hmmer2TextParser.__iter__()
Hmmer2TextParser.read_next()
Hmmer2TextParser.push_back()
Hmmer2TextParser.parse_key_value()
Hmmer2TextParser.parse_preamble()
Hmmer2TextParser.parse_qresult()
Hmmer2TextParser.parse_hits()
Hmmer2TextParser.parse_hsps()
Hmmer2TextParser.parse_hsp_alignments()
Hmmer2TextParser.__firstlineno__
Hmmer2TextParser.__static_attributes__
Hmmer2TextIndexer
- Bio.SearchIO.HmmerIO.hmmer3/_domtab模块
- Bio.SearchIO.HmmerIO.hmmer3_tab模块
- Bio.SearchIO.HmmerIO.hmmer3_文本模块
模块内容
SearchIO支持HMMER输出格式。
该模块添加了对解析HMMER输出的支持。HMMER是一套实现隐藏马尔科夫模型的程序,以发现蛋白质序列之间的相似性。
Bio.SearchIO.HmmerIO在以下HMMER版本和口味上进行了测试:
HMMER 3口味:hmmcan、hmmsearch、phmmmer
HMMER 2 flavors:hmmpfam,hmmsearch
- 有关HMMER的更多信息可通过以下链接获取:
支持的格式
Bio.SearchIO.HmmerIO支持以下HMMER输出格式:
纯文本,v3.0 - “hmmer 3-text” - 解析、索引
表格,v3.0 - “hmmer 3-tab” - 解析、索引、编写
域表,v3.0 -“hmmer 3-domtab”*-解析、索引、编写
纯文本,v2.x - “hmmer 2-text” - 解析、索引
对于域表输出,由于HMMER输出序列坐标的方式,您必须指定产生输出的HMMER风味作为文件格式。因此,您必须使用“hmmer 3-domtab”,而不是使用“hmmscan 3-domtab”、“hmmsearch 3-domtab”或“phmmer 3-domtab”作为文件格式名称。
请注意,对于所有输出格式,HMMER使用其自己的输入和输出坐标约定。它没有使用“hit”或“query”一词,而是使用“hmm”或“ali”。例如,“hmmfrom”是马尔科夫序列的开始坐标,而“alifrom”是蛋白质序列的开始坐标。
HmmerIO意识到这种不同的命名方案,并将相应地调整它们以适应SearchIO的对象模型。如果HmmerIO看到要解析的输出文件是由hmmsearch或phmmer编写的,则所有“hmm”坐标将是命中坐标,“ali”坐标将是查询坐标。相反,如果HMMER口味为hmmscan,则“hmm”将被查询,“ali”将被命中。
这就是为什么“hmmer 3-domtab”格式必须与源HMMER风味一起指定。解析器需要知道哪个是命中,哪个是查询。“hmmer 3-text”在文件中包含其源程序信息,而“hmmer 3-tab”不输出任何坐标。这就是为什么这两种格式都不需要像“hmmer 3-domtab”这样的直接风味规范。
另请注意,当使用域表格式编写器时,它将使用HMMER的命名约定(“hmm”和“ali”),因此您编写的文件将与真正的HMMER程序编写的文件类似。
hmmer 2-text和hmmer 3-text
HMMER 3.0纯文本输出的解析器可以解析带有对齐块(默认)或不带有对齐块(带有“--noali”标志)的输出文件。如果存在对齐块,您还可以分析具有可变对齐宽度的文件(使用“--notextw”或“--textw”标志)。
提供了以下SearchIO对象属性。标有“*”的收件箱表示hmmer 2-text格式中不可用的属性:
对象 |
属性 |
值 |
---|---|---|
QueryResult |
加入 |
加入(如果存在) |
描述 |
查询序列描述 |
|
ID |
查询序列ID |
|
程序 |
HMMER风味 |
|
seq_len* |
查询序列的全长 |
|
目标 |
目标搜索数据库 |
|
版本 |
弹幕版本 |
|
击中 |
偏见 * |
命中水平偏差 |
位得分 |
命中水平分数 |
|
描述 |
命中序列描述 |
|
domain_exp_num* |
预期命中域数量(BEP列) |
|
domain_obs_num |
观察到的命中中的域数量(N列) |
|
evalue |
点击级e值 |
|
ID |
命中序列ID |
|
is_included* |
布尔值,无论命中是否在包含阈值内 |
|
HSP |
acc_avg* |
每个对齐残基的预期准确度(acc柱) |
偏见 * |
hspp水平偏差 |
|
位得分 |
HSP水平评分 |
|
domain_index |
HMMER设置的域索引 |
|
env_end* |
信封的结束坐标 |
|
env_endtype* |
信封结束类型(例如“['、'.. ', '[. '等) |
|
env_start* |
信封的开始坐标 |
|
evalue |
HSP水平独立e值 |
|
evalue_cond* |
hspp级条件e值 |
|
hit_endtype |
命中序列结束类型 |
|
is_included* |
布尔值,hp的命中是否在包含阈值内 |
|
query_endtype |
查询序列结束类型 |
|
HSPFragment(也通过HSPs) |
aln_annotation |
对齐相似性字符串和其他注释(例如PP、CS) |
aln_span |
对齐片段长度 |
|
击中 |
命中序列 |
|
hit_end |
命中序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格 |
|
hit_start |
命中序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER口味 |
|
hit_strand |
命中序列链 |
|
查询 |
查询序列 |
|
query_end |
查询序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格 |
|
query_start |
查询序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER风格 |
|
query_strand |
查询序列链 |
hmmer 3-tab
提供了以下SearchIO对象属性:
对象 |
属性 |
列/值 |
---|---|---|
QueryResult |
加入 |
查询加入(如果存在) |
描述 |
查询序列描述 |
|
ID |
查询名称 |
|
击中 |
加入 |
点击加入 |
偏置 |
命中水平偏差 |
|
位得分 |
命中水平分数 |
|
描述 |
命中序列描述 |
|
cluster_num |
克鲁专栏 |
|
domain_exp_num |
经验列 |
|
domain_included_num |
公司专栏 |
|
domain_obs_num |
多姆专栏 |
|
domain_reported_num |
代表列 |
|
env_num |
En列 |
|
evalue |
命中水平评估 |
|
ID |
目标名称 |
|
overlap_num |
越过柱 |
|
region_num |
雷格列 |
|
HSP |
偏置 |
最佳领域的偏见 |
位得分 |
最佳域名的bitscore |
|
evalue |
最佳域名的评价 |
hmmer 3-domtab
要解析域表文件,必须使用生成该文件的HMMER风格。因此,不要使用“hmmer 3-domtab”,而应使用“hmmsearch 3-domtab”、“hmmscan 3-domtab”或“phmmer 3-domtab”。
提供了以下SearchIO对象属性:
对象 |
属性 |
值 |
---|---|---|
QueryResult |
加入 |
加入 |
描述 |
查询序列描述 |
|
ID |
查询序列ID |
|
seq_len |
查询序列的全长 |
|
击中 |
加入 |
加入 |
偏置 |
命中水平偏差 |
|
位得分 |
命中水平分数 |
|
描述 |
命中序列描述 |
|
evalue |
点击级e值 |
|
ID |
命中序列ID |
|
seq_len |
命中序列或Markov的长度 |
|
HSP |
acc_avg |
每个对齐残基的预期准确度(acc柱) |
偏置 |
hspp水平偏差 |
|
位得分 |
HSP水平评分 |
|
domain_index |
HMMER设置的域索引 |
|
env_end |
信封的结束坐标 |
|
env_start |
信封的开始坐标 |
|
evalue |
HSP水平独立e值 |
|
evalue_cond |
hspp级条件e值 |
|
HSPFragment(也通过HSPs) |
hit_end |
命中序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格 |
hit_start |
命中序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER口味 |
|
hit_strand |
命中序列链 |
|
query_end |
查询序列结束坐标,可能是“hmmto”或“alito”,具体取决于HMMER风格 |
|
query_start |
查询序列开始坐标,可能是“hmmfrom”或“alifrom”,具体取决于HMMER风格 |
|
query_strand |
查询序列链 |