2.1. 高斯混合模型#

sklearn.mixture 是一个软件包，使人们能够学习高斯混合模型（支持对角，球形，捆绑和全协方差矩阵），对其进行采样，并从数据中估计它们。还提供了帮助确定组件的适当数量的设施。

../_images/sphx_glr_plot_gmm_pdf_001.png — **Two-component Gaussian mixture model:** *data points, and equi-probability surfaces of the model.*#

高斯混合模型是一种概率模型，假设所有数据点都是从有限数量的具有未知参数的高斯分布的混合中生成的。人们可以将混合模型视为推广k均值集群，以纳入有关数据协方差结构以及潜在高斯中心的信息。

Scikit-learn实现不同的类来估计高斯混合模型，这些模型对应于不同的估计策略，详细说明如下。

2.1.1. 高斯混合#

的 GaussianMixture 对象实现 expectation-maximization (EM)适合高斯混合模型的算法。它还可以为多元模型绘制置信椭圆体，并计算Bayesian信息准则以评估数据中的集群数量。一 GaussianMixture.fit 提供了从训练数据学习高斯混合模型的方法。给定测试数据，它可以使用 GaussianMixture.predict 法

的 GaussianMixture 具有不同的选项来约束估计差异类别的协方差：球形、对角线、束缚或完全协方差。

../_images/sphx_glr_plot_gmm_covariances_001.png

示例

看到 GMM协方差例如，使用高斯混合作为虹膜数据集的集群。
看到高斯混合物的密度估计例如绘制密度估计。

2.1.2. 变分Bayesian高斯混合#

的 BayesianGaussianMixture 对象使用变分推理算法实现高斯混合模型的变体。该API类似于 GaussianMixture .

Estimation algorithm: variational inference

变分推理是期望最大化的扩展，它最大化模型证据（包括先验）而不是数据可能性的下限。变分方法背后的原理与期望最大化相同（即两者都是迭代算法，在寻找每个混合物生成的每个点的概率和将混合物匹配到这些指定点之间交替），但变分方法通过集成来自先验分布的信息来添加规则化。这避免了期望最大化解决方案中常见的奇异性，但给模型带来了一些微妙的偏差。推理通常速度明显较慢，但通常不会慢到以至于使用不切实际。

由于其Bayesian性质，变分算法需要比期望最大化更多的超参数，其中最重要的是浓度参数 weight_concentration_prior .将浓度指定为较低的值将使模型将大部分重量放在少数成分上，并将其余成分的重量设置为非常接近零。浓度先验的高值将允许更大数量的组分在混合物中具有活性。

的参数实现 BayesianGaussianMixture 类为权重分布提出了两种类型的先验：具有Dirichlet分布的有限混合模型和具有Dirichlet过程的无限混合模型。在实践中，Dirichlet Process推理算法是近似的，并使用具有固定最大分量数量的截断分布（称为Stick-breaking表示）。实际使用的组件数量几乎总是取决于数据。

下图比较了不同类型的重量浓度之前获得的结果（参数 weight_concentration_prior_type ）对于不同的 weight_concentration_prior .在这里，我们可以看到 weight_concentration_prior 参数对获得的活性成分的有效数量有很大影响。我们还可以注意到，当先验类型为“dirichlet_disposal”时，浓度权重先验的大值会导致权重更均匀，而对于“dirichlet_Process”类型（默认使用）来说，情况不一定是这样。

下面的示例将具有固定数量分量的高斯混合模型与具有Dirichlet过程的变分高斯混合模型进行比较。在这里，经典高斯混合在由2个集群组成的数据集上用5个分量进行匹配。我们可以看到，具有Dirichlet过程先验的变分高斯混合能够将自己限制为仅2个分量，而高斯混合用固定数量的分量来匹配数据，这些分量必须由用户先验设置。在这种情况下，用户已选择 n_components=5 这与这个玩具数据集的真实生成分布不匹配。请注意，在观察很少的情况下，具有Dirichlet过程的变分高斯混合模型可以采取保守立场，并且仅适合一个分量。

在下图中，我们正在对高斯混合没有很好地描述的数据集进行匹配。调整 weight_concentration_prior ，的参数 BayesianGaussianMixture 控制用于适应此数据的组件数量。我们还在最后两个图上呈现了从两种所得混合物生成的随机抽样。

../_images/sphx_glr_plot_gmm_sin_001.png

示例

看到高斯混合模型椭圆体例如，绘制两者的置信椭圆体 GaussianMixture 和 BayesianGaussianMixture .
高斯混合模型顺曲线显示使用 GaussianMixture 和 BayesianGaussianMixture 以适应一个长波。
See 变异Bayesian高斯混合物的浓度先验型分析 for an example plotting the confidence ellipsoids for the BayesianGaussianMixture with different weight_concentration_prior_type for different values of the parameter weight_concentration_prior.

2.1.2.1. 狄利克雷过程#

在这里，我们描述了Dirichlet过程混合的变分推理算法。Dirichlet过程是一个先验概率分布 clusterings with an infinite, unbounded, number of partitions .与有限高斯混合模型相比，变分技术让我们在推理时间上几乎没有损失的情况下将这种先验结构整合到高斯混合模型上。

一个重要的问题是Dirichlet过程如何使用无限、无限数量的集群并且仍然保持一致。虽然完整的解释不适合本手册，但人们可以想到它的 stick breaking process 类比以帮助理解它。打破大棒的过程是狄利克雷过程的一个生成故事。我们从一根单位长度的棍子开始，在每一步中，我们都会折断剩余棍子的一部分。每次，我们都会将木棍的长度与落入混合物组中的点的比例联系起来。最后，为了表示无限混合物，我们将棍子的最后一部分与不属于所有其他组的点的比例联系起来。每块的长度是一个随机变量，其概率与浓度参数成正比。浓度的较小值将将单位长度分成更大的棒块（定义更集中的分布）。更大的浓度值将产生更小的棒块（增加具有非零重量的成分的数量）。

Dirichlet过程的变分推理技术仍然适用于这个无限混合物模型的有限逼近，但不必先验地指定想要使用多少成分，而只需指定浓度参数和混合物成分数量的上限（假设这个上限高于组件的“真实”数量，则只影响算法复杂性，而不影响所使用组件的实际数量）。