Bio.Align.AlignInfo模块

从路线对象提取信息。

为了尝试避免具有大量函数的巨大对齐对象，返回有关对齐的摘要类型信息的函数应该放入此模块中的类中。

class Bio.Align.AlignInfo.SummaryInfo(alignment)

基类：object

计算有关路线的摘要信息。

此类应用于计算总结对齐结果的信息。这可能是直接的共识信息，也可能是更复杂的事情。

__init__(alignment)

使用对齐来初始化以计算其信息。

ic_vector属性。每个列号的ic内容列表。

dumb_consensus(threshold=0.7, ambiguous='X', require_multiple=False)

输出对齐的快速共识序列。

这根本没有做任何花哨的事情。它只会逐个残基检查序列，并计算每种类型残基的数量（即A或G或T或C（对于DNA）在比对中的所有序列中。如果最常见的残基类型的百分比大于通过的阈值，那么我们将添加该残基类型，否则将添加模糊字符。

这可以做得更漂亮（即。考虑替代矩阵），但这只是意味着快速而肮脏的共识。

论点：

阈值-添加特定原子所需的阈值。
歧义-未达到阈值时添加的歧义字符。
release_multilate-如果设置为True，则需要超过1个序列作为比对的一部分才能将其放入共识（即而不仅仅是1个序列和缺口）。

gap_consensus(threshold=0.7, ambiguous='X', require_multiple=False)

输出对齐的快速共识序列，允许存在间隙。

与dumb_consensus（）相同，但允许输出上存在间隙。

要做的事情：

让用户定义只有一个间隙，共识中的结果字符是间隙。
让用户选择间隔字符，现在它与输入相同。

replacement_dictionary(skip_chars=None, letters=None)

生成替换字典以插入替换矩阵。

这应该着眼于对齐，并且能够在对齐的对象中生成不同残基相互取代的数量。

然后将返回包含以下信息的字典：：

{('A', 'C') : 10, ('C', 'A') : 12, ('G', 'C') : 15 ....}

这也处理加权序列。下面的示例展示了我们如何计算替换字典。给定以下多重序列比对：：

GTATC  0.5
AT--C  0.8
CTGTC  1.0

对于第一列，我们有：：

('A', 'G') : 0.5 * 0.8 = 0.4
('C', 'G') : 0.5 * 1.0 = 0.5
('A', 'C') : 0.8 * 1.0 = 0.8

然后，我们对对齐中的所有列继续执行这一操作，对每列中每个替换的信息进行总和，直到最终得到替换字典。

论点：

skip_chars -未使用;将其设置为除无之外的任何内容将引发Value错误
letters -可迭代对象（例如要包含的字符串或字符列表。

pos_specific_score_matrix(axis_seq=None, chars_to_ignore=None)

为对齐创建特定于职位的得分矩阵对象。

这创建了一个特定于位置的得分矩阵（psm），这是查看共识序列的替代方法。

论点：

chars_to_ignore -不包含在pssm中的所有字符的列表。
axis_seq -一个可选参数，指定要放在PSSM轴上的序列。这应该是一个Seq对象。如果未指定任何内容，则将使用使用默认参数计算的共有序列。

退货：

PSSM（位置特定分数矩阵）对象。

information_content(start=0, end=None, e_freq_table=None, log_base=2, chars_to_ignore=None, pseudo_count=0)

计算沿着比对的每个残基的信息含量。

论点：

开始、结束-计算信息内容的开始和结束点。这些点应该相对于对齐中的第一个序列，从零开始（即即使seq中的“真实”第一位置在初始序列中是203，对于信息内容，我们也需要使用零）。这默认为第一个序列的整个长度。
e_freq_table -指定每个字母的预期频率的字典（例如' G '：0.4，' C '：0.4，' T '：0.1}）。不应包括间隔字符，因为这些字符不应具有预期的频率。
log_base -计算信息内容时使用的log的底。默认为2，因此信息以位为单位。
chars_to_ignore -计算信息内容时应忽略的字符列表。删除到无。

退货：

代表指定区域的信息内容的数字。

有关如何计算信息内容的更多信息，请参阅Biopython手册。

get_column(col): 返回对齐列。

__firstlineno__ = 23

__static_attributes__ = ('alignment', 'ic_vector')

class Bio.Align.AlignInfo.PSSM(pssm)

基类：object

代表特定职位的分数矩阵。

这个类旨在使您轻松访问PSSM中的信息，并使您轻松在漂亮的表格中打印出信息。

假设您有这样的对齐：：

GTATC
AT--C
CTGTC

位置特定的分数矩阵（打印时）如下所示：

您可以使用以下内容访问PSSM的单个元素：：

your_pssm[sequence_number][residue_count_name]

例如，要获得上述对齐中第二个元素的“T”残基，您需要执行以下操作：

your_pssm [1] ['T']

__init__(pssm)

用psm数据初始化来表示。

传递的psms应该是具有以下结构的列表：

列表 [0] - 表示的余数的字母（例如，在上面的示例中，前几个列表 [0] s将是GSTAT.列表 [1] - 一本包含字母替换和计数的词典。

__getitem__(pos)

__str__(): 返回url（self）。

get_residue(pos): 返回指定位置的剩余字母。

__firstlineno__ = 678

__static_attributes__ = ('pssm',)

Bio.Align.AlignInfo.print_info_content(summary_info, fout=None, rep_record=0): 3列输出：位置、代表性序列中的aa、ic_vector值。