BayesianGaussianMixture#
- class sklearn.mixture.BayesianGaussianMixture(*, n_components=1, covariance_type='full', tol=0.001, reg_covar=1e-06, max_iter=100, n_init=1, init_params='kmeans', weight_concentration_prior_type='dirichlet_process', weight_concentration_prior=None, mean_precision_prior=None, mean_prior=None, degrees_of_freedom_prior=None, covariance_prior=None, random_state=None, warm_start=False, verbose=0, verbose_interval=10)[源代码]#
高斯混合物的变分Bayesian估计。
此类允许推断高斯混合分布参数上的大致后验分布。可以从数据中推断出组件的有效数量。
此类实现了两种类型的权重分布先验:具有Dirichlet分布的有限混合模型和具有Dirichlet过程的无限混合模型。在实践中,Dirichlet Process推理算法是近似的,并使用具有固定最大分量数量的截断分布(称为Stick-breaking表示)。实际使用的组件数量几乎总是取决于数据。
Added in version 0.18.
阅读更多的 User Guide .
- 参数:
- n_componentsint,默认=1
混合物成分的数量。取决于数据和
weight_concentration_prior
模型可以通过设置某些组件来决定不使用所有组件weights_
值非常接近于零。因此,有效成分的数量小于n_components。- covariance_type默认值为“full”、“tied”、“diag'、”spherical'},默认值为“full”
描述要使用的协方差参数类型的字符串。必须是以下之一:
“完整”(每个分量都有自己的一般协方差矩阵),
“绑定”(所有组件共享相同的一般协方差矩阵),
“diag”(每个分量具有其自己的对角协方差矩阵),
“球形”(每个分量都有自己的单一方差)。
- tol浮点数,默认值= 1 e-3
收敛阈值。当(训练数据相对于模型的)似然性的下限平均收益低于此阈值时,EM迭代将停止。
- reg_covarfloat,默认= 1 e-6
将非负正规化添加到协方差的对角线上。允许确保协方差矩阵均为正值。
- max_iterint,默认=100
要执行的EM迭代次数。
- n_initint,默认=1
要执行的初始化数量。保留可能性下限最高的结果。
- init_params' k-means ',' k-means++',' random_from_data '}, 默认=' kmeans '
用于初始化权重、平均值和协方差的方法。字符串必须是以下之一:
“kmeans”:使用kmeans初始化责任。
'k-means++':使用k-means++方法进行初始化。
“随机”:责任随机初始化。
'random_from_data':初始平均值是随机选择的数据点。
在 v1.1 版本发生变更:
init_params
现在接受“random_from_data”和“k-means++”作为初始化方法。- weight_concentration_prior_type“dirichlet_Process”,“dirichlet_Distribution '}, 默认=' dirichlet_Process '
描述之前重量浓度类型的字符串。
- weight_concentration_prior浮动或无,默认=无
重量分布上各成分的Dirichlet浓度(Dirichlet)。这在文献中通常被称为伽玛。浓度越高,中心的质量越多,并将导致更多成分处于活性状态,而浓度参数越低,将导致混合物重量单一边缘的质量越大。参数的值必须大于0。如果为无,则设置为
1. / n_components
.- mean_precision_prior浮动或无,默认=无
均值分布(高斯分布)的精度先验。控制可以放置方法的范围。较大的值将聚类平均值集中在
mean_prior
.参数的值必须大于0。如果为无,则设置为1。- mean_prior类数组,形状(n_features,),默认=无
均值分布(高斯)的先验。如果为无,则将其设置为X的平均值。
- degrees_of_freedom_prior浮动或无,默认=无
协方差分布上自由度数的先验(Wishart)。如果为无,则设置为
n_features
.- covariance_prior浮点或类数组,默认=无
协方差分布的先验(Wishart)。如果为无,则使用X的协方差初始化指数协方差先验。形状取决于
covariance_type
(n_features, n_features) if 'full', (n_features, n_features) if 'tied', (n_features) if 'diag', float if 'spherical'
- random_stateint,RandomState实例或无,默认=无
控制分配给选择来初始化参数的方法的随机种子(请参阅
init_params
).此外,它还控制从匹配分布生成随机样本(请参阅方法sample
).传递int以获得跨多个函数调用的可重复输出。看到 Glossary .- warm_start布尔,默认=假
如果“warm_start”为True,则最后一次fit的解将用作下一次fit()调用的初始化。当对类似问题多次调用fit时,这可以加快收敛速度。看到 the Glossary .
- verboseint,默认=0
启用详细输出。如果为1,那么它会打印当前的初始化和每个迭代步骤。如果大于1,则它还会打印日志概率和每个步骤所需的时间。
- verbose_intervalint,默认值=10
下一次打印之前完成的迭代次数。
- 属性:
- weights_形状类似阵列(n_components,)
每个混合物成分的重量。
- means_形状类似阵列(n_组件,n_特征)
每个混合物成分的平均值。
- covariances_阵列状
每个混合成分的协方差。形状取决于
covariance_type
(n_components,) if 'spherical', (n_features, n_features) if 'tied', (n_components, n_features) if 'diag', (n_components, n_features, n_features) if 'full'
- precisions_阵列状
混合物中每个成分的精确矩阵。精度矩阵是协方差矩阵的逆矩阵。协方差矩阵是对称的,因此高斯混合可以通过精度矩阵等效参数化。存储精度矩阵而不是协方差矩阵可以更有效地计算测试时新样本的log似然性。形状取决于
covariance_type
(n_components,) if 'spherical', (n_features, n_features) if 'tied', (n_components, n_features) if 'diag', (n_components, n_features, n_features) if 'full'
- precisions_cholesky_阵列状
每个混合分量的精度矩阵的Skicky分解。精度矩阵是协方差矩阵的逆矩阵。协方差矩阵是对称的,因此高斯混合可以通过精度矩阵等效参数化。存储精度矩阵而不是协方差矩阵可以更有效地计算测试时新样本的log似然性。形状取决于
covariance_type
(n_components,) if 'spherical', (n_features, n_features) if 'tied', (n_components, n_features) if 'diag', (n_components, n_features, n_features) if 'full'
- converged_bool
当达到最佳推理的收敛时为真,否则为假。
- n_iter_int
最佳推理适合达到收敛所使用的步骤数。
- lower_bound_浮子
推理最佳契合度的模型证据(训练数据)的下限值。
- weight_concentration_prior_tuple或float
重量分布上各成分的Dirichlet浓度(Dirichlet)。类型取决于
weight_concentration_prior_type
(float, float) if 'dirichlet_process' (Beta parameters), float if 'dirichlet_distribution' (Dirichlet parameters).
浓度越高,中心的质量越多,并将导致更多的成分活跃,而浓度参数越低,则会导致单形边缘的质量越大。
- weight_concentration_形状类似阵列(n_components,)
The dirichlet concentration of each component on the weight distribution (Dirichlet).
- mean_precision_prior_浮子
均值分布(高斯分布)的精度先验。控制可以放置方法的范围。较大的值将聚类平均值集中在
mean_prior
.如果mean_precision_prior设置为无,mean_precision_prior_
设置为1。- mean_precision_形状类似阵列(n_components,)
平均分布(高斯)上每个分量的精度。
- mean_prior_形状类似阵列(n_features,)
均值分布(高斯)的先验。
- degrees_of_freedom_prior_浮子
协方差分布上自由度数的先验(Wishart)。
- degrees_of_freedom_形状类似阵列(n_components,)
模型中每个零部件的自由度数。
- covariance_prior_浮动或类数组
协方差分布的先验(Wishart)。形状取决于
covariance_type
(n_features, n_features) if 'full', (n_features, n_features) if 'tied', (n_features) if 'diag', float if 'spherical'
- n_features_in_int
期间看到的功能数量 fit .
Added in version 0.24.
- feature_names_in_ :nd形状数组 (
n_features_in_
,)nd数组形状( Names of features seen during fit. Defined only when
X
has feature names that are all strings.Added in version 1.0.
参见
GaussianMixture
有限高斯混合与EM进行匹配。
引用
[1]Bishop, Christopher M. (2006). "Pattern recognition and machine learning". Vol. 4 No. 4. New York: Springer. <https://www.springer.com/kr/book/9780387310732>
_[2]Hagai Attias. (2000). "A Variational Bayesian Framework for Graphical Models". In Advances in Neural Information Processing Systems 12. <https://citeseerx.ist.psu.edu/doc_view/pid/ee844fd96db7041a9681b5a18bff008912052c7e>
_[3]Blei, David M. and Michael I. Jordan. (2006). "Variational inference for Dirichlet process mixtures". Bayesian analysis 1.1 <https://www.cs.princeton.edu/courses/archive/fall11/cos597C/reading/BleiJordan2005.pdf>
_示例
>>> import numpy as np >>> from sklearn.mixture import BayesianGaussianMixture >>> X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [12, 4], [10, 7]]) >>> bgm = BayesianGaussianMixture(n_components=2, random_state=42).fit(X) >>> bgm.means_ array([[2.49... , 2.29...], [8.45..., 4.52... ]]) >>> bgm.predict([[0, 0], [9, 3]]) array([0, 1])
- fit(X, y=None)[源代码]#
使用EM算法估计模型参数。
该方法适合该模型
n_init
时间并设置模型具有最大可能性或下限的参数。在每次试验中,该方法在E步和M步之间迭代,max_iter
直到可能性或下限的变化小于tol
,否则,ConvergenceWarning
被提出。如果warm_start
是True
那么n_init
被忽略,并在第一次调用时执行单个初始化。连续通话后,训练从停止的地方开始。- 参数:
- X形状类似阵列(n_samples,n_features)
n_特征维数据点列表。每一行对应一个数据点。
- y忽视
未使用,按照惯例,为了API一致性而存在。
- 返回:
- self对象
合适的混合物。
- fit_predict(X, y=None)[源代码]#
使用X估计模型参数并预测X的标签。
该方法对模型进行n_init次的匹配,并设置模型具有最大可能性或下限的参数。在每次试验中,该方法在E步和M步之间迭代,
max_iter
直到可能性或下限的变化小于tol
,否则,ConvergenceWarning
被提出。匹配后,它预测输入数据点的最可能标签。Added in version 0.20.
- 参数:
- X形状类似阵列(n_samples,n_features)
n_特征维数据点列表。每一行对应一个数据点。
- y忽视
未使用,按照惯例,为了API一致性而存在。
- 返回:
- labels数组,形状(n_samples,)
组件标签。
- get_metadata_routing()[源代码]#
获取此对象的元数据路由。
请检查 User Guide 关于路由机制如何工作。
- 返回:
- routingMetadataRequest
A
MetadataRequest
封装路由信息。
- get_params(deep=True)[源代码]#
获取此估计器的参数。
- 参数:
- deep布尔,默认=True
如果为True,将返回此估计量和包含的作为估计量的子对象的参数。
- 返回:
- paramsdict
参数名称映射到其值。
- predict(X)[源代码]#
使用训练模型预测X中数据样本的标签。
- 参数:
- X形状类似阵列(n_samples,n_features)
n_特征维数据点列表。每一行对应一个数据点。
- 返回:
- labels数组,形状(n_samples,)
组件标签。
- predict_proba(X)[源代码]#
评估每个样品的组分密度。
- 参数:
- X形状类似阵列(n_samples,n_features)
n_特征维数据点列表。每一行对应一个数据点。
- 返回:
- resp数组,形状(n_samples,n_components)
X中每个样本的每个高斯分量的密度。
- sample(n_samples=1)[源代码]#
从匹配的高斯分布生成随机样本。
- 参数:
- n_samplesint,默认=1
要生成的样本数量。
- 返回:
- X数组,形状(n_samples,n_features)
随机生成的样本。
- y数组,形状(nsamples,)
组件标签。
- score(X, y=None)[源代码]#
计算给定数据X的每样本平均对数似然。
- 参数:
- X形状类似阵列(n_样本,n_维度)
n_特征维数据点列表。每一行对应一个数据点。
- y忽视
未使用,按照惯例,为了API一致性而存在。
- 返回:
- log_likelihood浮子
对数似然
X
在高斯混合模型下。