skbio.alignment.StripedSmithWaterman¶

class skbio.alignment.StripedSmithWaterman¶

执行条纹（带状）Smith Waterman对齐。

首先，StripedSmithWaterman对象必须用查询序列实例化。结果对象然后可以用目标序列调用，并且可以在大量的目标序列集合上重用。

参数:

query_sequence (string) -- 查询序列，这可以是来自{A，C，G，T，N}（核苷酸）集合或来自{A，R，N，D，C，Q，E，G，H，I，L，K，M，F，P，S，T，W，Y，V，B，Z，X，*}（蛋白质）的集合
gap_open_penalty (int, optional) -- 用于在路线中创建间隙的惩罚。这不能是0。默认值为5。
gap_extend_penalty (int, optional) -- 用于延长路线间隙的惩罚。这不能是0。默认值为2。
score_size (int, optional) -- 如果您估计的最佳校准分数<255，则应为0。如果您估计的最佳对齐分数>=255，则此值应为1。如果你不知道，这个应该是2。默认值为2。
mask_length (int, optional) -- 最佳和次优对齐结束位置之间的距离>=遮罩长度。如果您没有特别的顾虑，我们建议使用len（query_sequence）/2。掩码长度的详细描述：在找到最佳对齐结束位置后，通过检查包含SW矩阵每列最大值的数组中的第二大分数，可以启发式地找到次优对齐得分。为了避免选取属于共享部分最佳比对的比对分数，SSW-C文库在最佳比对结束位置附近（mask length=mask_length）掩蔽参考位点，并从未掩蔽元素中找出第二大得分。默认值为15。
mask_auto (bool, optional) -- 这将自动将使用的掩码长度设置为max（int（len (query_sequence )/2）你说， mask_length ). 默认值为True。
score_only (bool, optional) -- 这将阻止最佳对准起始位置（BABP）和雪茄被退回。这将覆盖上的任何设置 score_filter ， distance_filter 和 override_skip_babp . 它具有最高优先级。默认值为False。
score_filter (int, optional) -- 如果已设置，则当最佳对中分数小于时，这将阻止返回雪茄和最佳对中起始位置（BABP） score_filter 节省一些计算时间。此筛选器可能被重写 score_only （无论其他争论如何，都能阻止BABP和雪茄烟的传播）， distance_filter （可能会阻止雪茄，但会导致计算BABP），以及 override_skip_babp （将确保BABP）返回。默认值为“无”。
distance_filter (int, optional) -- 如果设置，这将阻止雪茄返回，如果 query_sequence 或 target_sequence 小于 distance_filter 节省一些计算时间。此筛选器的结果可能被重写 score_only （无论其他争论如何，都能阻止BABP和雪茄烟的传播），以及 score_filter （可能会阻止雪茄）。 override_skip_babp 应用此过滤器时没有任何影响，因为必须计算BABP才能执行过滤器。默认值为“无”。
override_skip_babp (bool, optional) -- 为True时，将始终返回最佳对齐起始位置（BABP），除非 score_only 设置为True。默认值为False。
protein (bool, optional) -- 如果为真，则 query_sequence 和 target_sequence 会被解读为蛋白质序列。当 query_sequence 和 target_sequence 将被解读为核苷酸序列。如果为真，则 substitution_matrix 必须提供。默认值为False。
match_score (int, optional) -- 当使用核苷酸序列时，match_score是匹配发生时加起来的分数。如果 substitution_matrix 提供。默认值为2。
mismatch_score (int, optional) -- 当使用核苷酸序列时，错配是发生错配时减去的分数。这应该是一个负整数。如果 substitution_matrix 提供。默认值为-3。
substitution_matrix (2D dict, optional) -- 提供每个可能的序列字符替换的分数。这可用于蛋白质或核苷酸序列。相关序列类型的全部可能组合必须在dict的dict中枚举。这将覆盖 match_score 和 mismatch_score . 何时需要 protein 是真的。默认值为“无”。
suppress_sequences (bool, optional) -- 如果为True，则为方便起见，将不返回查询和目标序列。默认值为False。
zero_index (bool, optional) -- 如果为True，则所有的索引将从0开始。如果为False，则所有的索引将从1开始。默认值为True。

备注

这是SSW包的包装 [1].

mask_length 必须大于等于15，否则将不会返回次优对齐信息。

match_score 是一个正整数，并且 mismatch_score 是一个负整数。

match_score 和 mismatch_score 只有在核苷酸序列的背景下才有意义。

当处理蛋白质序列时，必须提供一个替换矩阵。

引用

内嵌函数

`__call__`	排列 target_sequence 到 query_sequence
`__eq__`(value, /)	返回self==值。
`__ge__`(value, /)	返回self>=值。
`__getstate__` \()	泡菜的帮手。
`__gt__`(value, /)	返回self>值。
`__hash__` \()	返回哈希（self）。
`__le__`(value, /)	返回self<=value。
`__lt__`(value, /)	返回self<value。
`__ne__`(value, /)	回归自我！=值。
`__setstate__`
`__str__` \()	返回str（self）。

方法