skbio.alignment.StripedSmithWaterman

class skbio.alignment.StripedSmithWaterman

执行条纹(带状)Smith Waterman对齐。

首先,StripedSmithWaterman对象必须用查询序列实例化。结果对象然后可以用目标序列调用,并且可以在大量的目标序列集合上重用。

参数:
  • query_sequence (string) -- 查询序列,这可以是来自{A,C,G,T,N}(核苷酸)集合或来自{A,R,N,D,C,Q,E,G,H,I,L,K,M,F,P,S,T,W,Y,V,B,Z,X,*}(蛋白质)的集合

  • gap_open_penalty (int, optional) -- 用于在路线中创建间隙的惩罚。这不能是0。默认值为5。

  • gap_extend_penalty (int, optional) -- 用于延长路线间隙的惩罚。这不能是0。默认值为2。

  • score_size (int, optional) -- 如果您估计的最佳校准分数<255,则应为0。如果您估计的最佳对齐分数>=255,则此值应为1。如果你不知道,这个应该是2。默认值为2。

  • mask_length (int, optional) -- 最佳和次优对齐结束位置之间的距离>=遮罩长度。如果您没有特别的顾虑,我们建议使用len(query_sequence)/2。掩码长度的详细描述:在找到最佳对齐结束位置后,通过检查包含SW矩阵每列最大值的数组中的第二大分数,可以启发式地找到次优对齐得分。为了避免选取属于共享部分最佳比对的比对分数,SSW-C文库在最佳比对结束位置附近(mask length=mask_length)掩蔽参考位点,并从未掩蔽元素中找出第二大得分。默认值为15。

  • mask_auto (bool, optional) -- 这将自动将使用的掩码长度设置为max(int(len (query_sequence )/2) 你说, mask_length ). 默认值为True。

  • score_only (bool, optional) -- 这将阻止最佳对准起始位置(BABP)和雪茄被退回。这将覆盖上的任何设置 score_filterdistance_filteroverride_skip_babp . 它具有最高优先级。默认值为False。

  • score_filter (int, optional) -- 如果已设置,则当最佳对中分数小于时,这将阻止返回雪茄和最佳对中起始位置(BABP) score_filter 节省一些计算时间。此筛选器可能被重写 score_only (无论其他争论如何,都能阻止BABP和雪茄烟的传播), distance_filter (可能会阻止雪茄,但会导致计算BABP),以及 override_skip_babp (将确保BABP)返回。默认值为“无”。

  • distance_filter (int, optional) -- 如果设置,这将阻止雪茄返回,如果 query_sequencetarget_sequence 小于 distance_filter 节省一些计算时间。此筛选器的结果可能被重写 score_only (无论其他争论如何,都能阻止BABP和雪茄烟的传播),以及 score_filter (可能会阻止雪茄)。 override_skip_babp 应用此过滤器时没有任何影响,因为必须计算BABP才能执行过滤器。默认值为“无”。

  • override_skip_babp (bool, optional) -- 为True时,将始终返回最佳对齐起始位置(BABP),除非 score_only 设置为True。默认值为False。

  • protein (bool, optional) -- 如果为真,则 query_sequencetarget_sequence 会被解读为蛋白质序列。当 query_sequencetarget_sequence 将被解读为核苷酸序列。如果为真,则 substitution_matrix 必须提供。默认值为False。

  • match_score (int, optional) -- 当使用核苷酸序列时,match_score是匹配发生时加起来的分数。如果 substitution_matrix 提供。默认值为2。

  • mismatch_score (int, optional) -- 当使用核苷酸序列时,错配是发生错配时减去的分数。这应该是一个负整数。如果 substitution_matrix 提供。默认值为-3。

  • substitution_matrix (2D dict, optional) -- 提供每个可能的序列字符替换的分数。这可用于蛋白质或核苷酸序列。相关序列类型的全部可能组合必须在dict的dict中枚举。这将覆盖 match_scoremismatch_score . 何时需要 protein 是真的。默认值为“无”。

  • suppress_sequences (bool, optional) -- 如果为True,则为方便起见,将不返回查询和目标序列。默认值为False。

  • zero_index (bool, optional) -- 如果为True,则所有的索引将从0开始。如果为False,则所有的索引将从1开始。默认值为True。

备注

这是SSW包的包装 [1].

mask_length 必须大于等于15,否则将不会返回次优对齐信息。

match_score 是一个正整数,并且 mismatch_score 是一个负整数。

match_scoremismatch_score 只有在核苷酸序列的背景下才有意义。

当处理蛋白质序列时,必须提供一个替换矩阵。

引用

内嵌函数

__call__ 

排列 target_sequencequery_sequence

__eq__(value, /)

返回self==值。

__ge__(value, /)

返回self>=值。

__getstate__ \()

泡菜的帮手。

__gt__(value, /)

返回self>值。

__hash__ \()

返回哈希(self)。

__le__(value, /)

返回self<=value。

__lt__(value, /)

返回self<value。

__ne__(value, /)

回归自我!=值。

__setstate__ 

__str__ \()

返回str(self)。

方法