make_blobs#

sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None, return_centers=False)[源代码]#

生成用于集群的各向同性高斯斑点。

阅读更多的 User Guide .

参数:
n_samplesint或类似数组,默认值=100

如果是int,则是在集群之间平分的总积分。如果类似于数组,则序列的每个元素指示每个集群的样本数。

在 v0.20 版本发生变更: 现在可以将一个类似数组的对象传递给 n_samples 参数

n_featuresint,默认=2

每个样本的特征数量。

centersint或类似数组的形状(n_center,n_features),默认=无

要生成的中心数量或固定中心位置。如果n_samples是int并且center是No,则生成3个center。如果n_samples是类数组,则中心必须是无或长度等于n_samples长度的数组。

cluster_std浮点或浮点类数组,默认=1.0

聚类的标准差。

center_box浮点数(最小,最大),默认=(-10.0,10.0)

随机生成中心时每个集群中心的边界框。

shuffle布尔,默认=True

洗牌样本。

random_stateint,RandomState实例或无,默认=无

确定创建数据集的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

return_centers布尔,默认=假

如果为True,则返回每个集群的中心。

Added in version 0.23.

返回:
X形状的nd数组(n_samples,n_features)

生成的样本。

y形状的nd数组(n_samples,)

每个样本的集群成员资格的整数标签。

centers形状的nd数组(n_center,n_features)

The centers of each cluster. Only returned if return_centers=True.

参见

make_classification

更复杂的变体。

示例

>>> from sklearn.datasets import make_blobs
>>> X, y = make_blobs(n_samples=10, centers=3, n_features=2,
...                   random_state=0)
>>> print(X.shape)
(10, 2)
>>> y
array([0, 0, 1, 0, 2, 2, 2, 1, 1, 0])
>>> X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2,
...                   random_state=0)
>>> print(X.shape)
(10, 2)
>>> y
array([0, 1, 2, 0, 2, 2, 2, 1, 1, 0])