Bio.SearchIO.InterproscanIO包

子模块

模块内容

Bio.SearchIO支持InterProScan输出格式。

此模块添加了对解析InterProScan XML输出的支持。InterProScan以命令行程序的形式提供,也可以在EMBL-EBI的网页上找到。Bio.SearchIO.InterproscanIO在以下版本上进行了测试:

  • 版本:5.26-65.0(interproscan-model-2.1.xsd)

有关InterProScan的更多信息可通过以下链接获得:-发布:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3998142/-网络界面:https://www.ebi.ac.uk/interpro/search/sequence-search-文档:https://github.com/ebi-pf-team/interproscan/wiki

支持的格式

Bio.SearchIO.InterproscanIO支持以下格式:

  • XML-‘interproscan-xml’-解析

Interproscan-XML

InterproScan-XML解析器遵循此处描述的InterProScan XML:https://github.com/ebi-pf-team/interproscan/wiki/OutputFormats

对象

属性

XML元素

QueryResult

目标

InterPro

计划

InterProScan

版本

protein-matches.interproscan-version

命中

加入

signature.name

ID号

signature.ac

描述

signature.desc

dbxrefs

IPR:entry.ac go-xref.id pathway-xref.db:pathway-xref.id

attributes ['Target'] ['Target version'] ['Hit type']

*-match / *-location signature-library-release.library signature-library-release.version

HSP

位分数

*-location.score

eValue

*-location.evalue

HSPFragment(也通过HSP)

query_start

*-location.start

query_end

*-location.end

hit_start

*-location.hmm-start

hit_end

*-location.hmm-end

查询

sequence

InterProScan XML文件可能包含具有多个位置的匹配项,也可能包含具有单个位置的同一蛋白质的多个匹配项。在这两种情况下,匹配被唯一地存储为HIT对象,位置被唯一地存储为HSP对象。

HSP.*start == *start - 1 (因为在Biopython中每个开始位置都是从0开始的)

HSP.aln_span ==  query-end - query-start

匹配类型或位置(例如,hmmer3-匹配、hmmer3-位置、线圈-匹配、黑豹-位置)存储在hit.properties中 [‘命中类型’] 。例如,对于每个“恐惧性匹配”,都会有一个“恐惧性位置”。因此,Hit.type将存储不包括‘-Match’或‘-location’的字符串(在本例中为‘phobous’)。