生物。图案。矩阵模块

支持各种形式的序列基序矩阵。

频率(计数)矩阵、位置权重矩阵和位置特定评分矩阵的实现。

class Bio.motifs.matrix.GenericPositionMatrix(alphabet, values)

基类:dict

支持位置矩阵操作的基本类。

__init__(alphabet, values)

初始化课程。

__str__()

返回包含碱基组中字母表计数的字符串。

__getitem__(key)

返回索引键位置矩阵。

property consensus

返回共识序列。

property anticonsensus

返回反共识序列。

property degenerate_consensus

返回简并共有序列。

calculate_consensus(substitution_matrix=None, plurality=None, identity=0, setcase=None)

返回给定参数的共识序列(作为字符串)。

该功能在很大程度上遵循CLASS的惯例 cons 工具.

论点:
  • substitution_matrix -比较序列时使用的评分矩阵。默认情况下,它是无,在这种情况下,我们只需计算每个字母的频率。您可以使用Bio.Align.substitution_matrix中提供的替代矩阵,而不是默认值。常见的选择是蛋白质的BLOSUM 62(也称为EBLOSUM 62),以及核苷酸的NUC.4.4(也称为EDNAAFSYS)。注:这尚未实施。

  • 多 - 达到共识所需的阳性匹配数量的阈值,除以列中的总计数。如果substitution_matrix为无,则此参数必须为无,并被忽略;否则将引发ValueHelp。如果substitution_matrix不为无,则复数的默认值为0.5。

  • 身份 - 定义共识值所需的身份数,除以列中的总计数。如果同一性的数量小于一列中的同一性 * 总计数,则在共有序列中使用未定义的字符(“N”代表核苷,“X”代表氨基酸序列)。如果身份为1.0,那么只有相同字母的列才能达成共识。默认值为零。

  • 布景 - 正匹配的阈值,除以列中的总计数,高于该阈值的共识为大写字母,低于该阈值的共识为大写字母。默认情况下,这等于0.5。

property gc_content

计算馏分GC含量。

reverse_complement()

计算反码。

__firstlineno__ = 24
__static_attributes__ = ('alphabet', 'length')
class Bio.motifs.matrix.FrequencyPositionMatrix(alphabet, values)

基类:GenericPositionMatrix

用于支持位置矩阵上的频率计算的类。

normalize(pseudocounts=None)

通过标准化计数矩阵来创建并返回位置权重矩阵。

如果伪计数为无(默认),则不会向计数中添加伪计数。

如果pseudocounts是一个数字,则在计算位置权重矩阵之前将其添加到计数中。

或者,伪计数可以是一个字典,其中包含与主题相关的字母表中的每个字母的关键字。

__annotations__ = {}
__firstlineno__ = 316
__static_attributes__ = ()
class Bio.motifs.matrix.PositionWeightMatrix(alphabet, counts)

基类:GenericPositionMatrix

类,用于支持位置矩阵上的权重计算。

__init__(alphabet, counts)

初始化课程。

log_odds(background=None)

返回特定于职位的评分矩阵。

位置特定评分矩阵(PSSM)包含根据概率矩阵和背景概率计算的对比分数。如果背景为无,则假设背景分布均匀。

__annotations__ = {}
__firstlineno__ = 348
__static_attributes__ = ()
class Bio.motifs.matrix.PositionSpecificScoringMatrix(alphabet, values)

基类:GenericPositionMatrix

支持特定职位评分矩阵计算的类。

calculate(sequence)

返回所有位置的给定序列的脉宽调制分数。

注:
  • 该序列只能是DNA序列

  • 仅对一条链执行搜索

  • 如果序列和基序具有相同的长度,则返回单个数字

  • 否则,结果是一维numpy数组

search(sequence, threshold=0.0, both=True, chunksize=10**6)

查找脉宽调制分数高于给定阈值的匹配项。

生成器函数,返回给定序列中发现的pwm分数高于阈值的命中。

property max

此主题的最大可能得分。

返回为共识序列计算的分数。

property min

该主题的最低可能得分。

返回为反共识序列计算的分数。

property gc_content

计算GC比。

mean(background=None)

返回主题得分的期望值。

std(background=None)

返回主题得分的标准差。

dist_pearson(other)

根据给定主题与自我的Pearson相关性返回相似性分数。

我们使用各自概率的皮尔逊相关性。

dist_pearson_at(other, offset)

基于给定偏差处的Pearson相关性返回相似性分数。

__annotations__ = {}
__firstlineno__ = 399
__static_attributes__ = ()
distribution(background=None, precision=10**3)

计算给定精度下的分数分布。