make_blobs#

sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None, return_centers=False)[源代码]#

生成用于集群的各向同性高斯斑点。

阅读更多的 User Guide .

参数:

n_samplesint或类似数组，默认值=100: 如果是int，则是在集群之间平分的总积分。如果类似于数组，则序列的每个元素指示每个集群的样本数。

在 v0.20 版本发生变更: 现在可以将一个类似数组的对象传递给 n_samples 参数
n_featuresint，默认=2: 每个样本的特征数量。
centersint或类似数组的形状（n_center，n_features），默认=无: 要生成的中心数量或固定中心位置。如果n_samples是int并且center是No，则生成3个center。如果n_samples是类数组，则中心必须是无或长度等于n_samples长度的数组。
cluster_std浮点或浮点类数组，默认=1.0: 聚类的标准差。
center_box浮点数（最小，最大），默认=（-10.0，10.0）: 随机生成中心时每个集群中心的边界框。
shuffle布尔，默认=True: 洗牌样本。
random_stateint，RandomState实例或无，默认=无: 确定创建数据集的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .
return_centers布尔，默认=假: 如果为True，则返回每个集群的中心。

Added in version 0.23.

返回:

X形状的nd数组（n_samples，n_features）: 生成的样本。
y形状的nd数组（n_samples，）: 每个样本的集群成员资格的整数标签。
centers形状的nd数组（n_center，n_features）: The centers of each cluster. Only returned if return_centers=True.

参见

make_classification: 更复杂的变体。

示例

>>> from sklearn.datasets import make_blobs
>>> X, y = make_blobs(n_samples=10, centers=3, n_features=2,
...                   random_state=0)
>>> print(X.shape)
(10, 2)
>>> y
array([0, 0, 1, 0, 2, 2, 2, 1, 1, 0])
>>> X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2,
...                   random_state=0)
>>> print(X.shape)
(10, 2)
>>> y
array([0, 1, 2, 0, 2, 2, 2, 1, 1, 0])