skbio.alignment.TabularMSA.consensus

TabularMSA.consensus()[源代码]

计算此MSA的多数一致性序列。

状态:从0.4.1开始试验。

多数一致性序列包含本MSA中每个位置的最常见字符。这种关系会以任意的方式被打破。

返回:

此MSA的多数共识序列。返回的序列类型将与此MSA的相同 dtypeSequence 如果这个MSA不包含任何序列。多数共识序列将其位置元数据设置为该MSA的位置元数据(如果存在)。

返回类型:

Sequence

备注

多数一致性序列将使用此MSA的默认间隙字符 (dtype.default_gap_char )表示某一位置的间隙多数,而不考虑该位置上存在的间隙字符。

一个位置的不同间隙字符是 not 被视为不同的字符。一个位置上的所有差距角色都有助于该位置的差距共识。

示例

>>> from skbio import DNA, TabularMSA
>>> sequences = [DNA('AC---'),
...              DNA('AT-C.'),
...              DNA('TT-CG')]
>>> msa = TabularMSA(sequences,
...                  positional_metadata={'prob': [2, 1, 2, 3, 5]})
>>> msa.consensus()
DNA
--------------------------
Positional metadata:
    'prob': <dtype: int64>
Stats:
    length: 5
    has gaps: True
    has degenerates: False
    has definites: True
    GC-content: 33.33%
--------------------------
0 AT-C-

请注意,MSA中的最后一个位置有多种间隙字符类型。这两种类型的空白字符都有助于立场的一致性。还要注意 DNA.default_gap_char 用于表示某个位置的间隙多数 ('-'