Bio.SeqUtils.ProtParam模块

简单的蛋白质分析。

示例

>>> from Bio.SeqUtils.ProtParam import ProteinAnalysis
>>> X = ProteinAnalysis("MAEGEITTFTALTEKFNLPPGNYKKPKLLYCSNGGHFLRILPDGTVDGT"
...                     "RDRSDQHIQLQLSAESVGEVYIKSTETGQYLAMDTSGLLYGSQTPSEEC"
...                     "LFLERLEENHYNTYTSKKHAEKNWFVGLKKNGSCKRGPRTHYGQKAILF"
...                     "LPLPV")
>>> print(X.count_amino_acids()['A'])
6
>>> print(X.count_amino_acids()['E'])
12
>>> print("%0.2f" % X.get_amino_acids_percent()['A'])
0.04
>>> print("%0.2f" % X.get_amino_acids_percent()['L'])
0.12
>>> print("%0.2f" % X.molecular_weight())
17103.16
>>> print("%0.2f" % X.aromaticity())
0.10
>>> print("%0.2f" % X.instability_index())
41.98
>>> print("%0.2f" % X.isoelectric_point())
7.72
>>> sec_struc = X.secondary_structure_fraction()  # [helix, turn, sheet]
>>> print("%0.2f" % sec_struc[0])  # helix
0.28
>>> epsilon_prot = X.molar_extinction_coefficient()  # [reduced, oxidized]
>>> print(epsilon_prot[0])  # with reduced cysteines
17420
>>> print(epsilon_prot[1])  # with disulfid bridges
17545
其他公共方法包括:
  • 肉汁

  • protein_scale

  • 灵活性

  • charge_at_pH

class Bio.SeqUtils.ProtParam.ProteinAnalysis(prot_sequence, monoisotopic=False)

基类:object

包含蛋白质分析方法的类。

构造函数有两个参数。第一个是将蛋白质序列作为字符串,然后使用Bio.Seq模块将其转换为序列对象。这样做只是为了确保序列是蛋白质序列,而不是其他任何序列。

第二个参数是可选的。如果设置为True,将使用其单同位素质量(每个元素最丰富的同位素的重量)而不是平均分子质量(每个元素的所有稳定同位素的平均重量)来计算氨基酸的重量。如果设置为FALSE(默认值)或忽略,则将使用IUPAC平均分子量进行计算。

__init__(prot_sequence, monoisotopic=False)

初始化类。

count_amino_acids()

清点标准氨基酸,返回判决书。

计算蛋白质序列中每个氨基酸出现的次数。返回字典{Aminoacid:Number}。

返回值缓存在self.amineacidescontent中。它不会在后续调用时重新计算。

get_amino_acids_percent()

以百分比计算氨基酸含量。

与COUNT_APNAME_ACDICES相同,仅返回整个序列的百分比数字。返回{氨基酸:百分比}的字典。

返回值缓存在self.amineacidespercent中。

输入是字典self.amineaccesdscontent。输出是一本以氨基酸为关键字的字典。

molecular_weight()

根据蛋白质序列计算分子量。

aromaticity()

根据Lobry,1994计算芳香度。

根据Lobry,1994计算蛋白质的芳香值。它简单地说就是Phe+Trp+Tyr的相对频率。

instability_index()

根据Guruprasad等人1990年计算的不稳定指数。

Guruprasad等人方法的实现。1990年测试一种蛋白质的稳定性。任何高于40的值都表示蛋白质不稳定(半衰期很短)。

参见:Guruprasad K.,Reddy B.V.B.,Pandit M.W.蛋白质工程4:155-161(1990)。

flexibility()

根据Vihinen,1994计算弹性。

没有用于更改窗口大小的参数,因为参数是特定于窗口=9的。所使用的参数是为确定灵活性而优化的。

gravy(scale='KyteDoolitle')

根据Kyte和Doolitle,1982计算肉汁(水病的总平均数)。

使用给定的疏水性比例,默认情况下使用Kyte和Doolitle(KyteDoolitle)建议的原始比例。其他选择还有:Aboderin,AbrahamLeo,Argos,BlackMold,BullBreese,Casari,Cid,Cowan3.4,Cowan7.5,Eisenberg,Engelman,Fasman,Fuchere,Goldsack,Guy,Jones,Juretic,Kidera,Miyazawa,Parker,Ponnuswamy,Rose,Roseman,Sweet,Tanford,Wilson和Zimmerman。

可以在ProtParamData中添加新比例。

protein_scale(param_dict, window, edge=1.0)

用任何氨基酸刻度来计算轮廓。

氨基酸等级由分配给每种氨基酸的数值定义。最常用的标尺有疏水性标尺或亲水性标尺和二级结构构象参数标尺,但也有许多其他标尺是基于氨基酸的不同化学和物理性质。可以设置多个参数来控制缩放剖面的计算,例如窗口大小和窗口边缘相对权重值。

WindowSize:窗口大小是用于配置文件计算的间隔长度。对于窗口大小n,我们使用每边的i-(n-1)/2个相邻残基来计算残基i的分数。残基i的分数是这些氨基酸的标度值之和,可根据它们在窗口中的位置进行加权。

边缘:窗口的中心氨基酸的重量始终为1。默认情况下,其余窗口位置的氨基酸具有相同的重量,但您可以通过将间隔开始和结束处的残留物的边缘值设置为介于0和1之间的值,使窗口中心的残留物具有比其他残留物更大的重量。例如,对于边缘=0.4,窗口大小为5,权重将为:0.4、0.7、1.0、0.7、0.4。

该方法返回一个值列表,可以绘制该列表以查看蛋白质序列的变化。存在许多尺度。只需将您的收藏夹添加到ProtParamData模块即可。

类似于Expasy的ProtScale:http://www.expasy.org/cgi-bin/protscale.pl

isoelectric_point()

计算等电点。

使用等电点模块计算蛋白质的等电点。

charge_at_pH(pH)

计算蛋白质在给定pH下的电荷。

secondary_structure_fraction()

计算螺旋分数、转数和板数。

返回倾向于螺旋、转角或片状的氨基酸部分的列表。

螺旋中的氨基酸:V,I,Y,F,W,L。氨基酸顺序为:N,P,G,S。片中氨基酸:E,M,A,L。

返回三个浮点数的元组(螺旋线、转角、板材)。

molar_extinction_coefficient()

计算摩尔消光系数。

假设半胱氨酸(还原)和半胱氨酸残基(Cys-Cys-键),计算摩尔消光系数