make_blobs#
- sklearn.datasets.make_blobs(n_samples=100, n_features=2, *, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None, return_centers=False)[源代码]#
生成用于集群的各向同性高斯斑点。
阅读更多的 User Guide .
- 参数:
- n_samplesint或类似数组,默认值=100
如果是int,则是在集群之间平分的总积分。如果类似于数组,则序列的每个元素指示每个集群的样本数。
在 v0.20 版本发生变更: 现在可以将一个类似数组的对象传递给
n_samples
参数- n_featuresint,默认=2
每个样本的特征数量。
- centersint或类似数组的形状(n_center,n_features),默认=无
要生成的中心数量或固定中心位置。如果n_samples是int并且center是No,则生成3个center。如果n_samples是类数组,则中心必须是无或长度等于n_samples长度的数组。
- cluster_std浮点或浮点类数组,默认=1.0
聚类的标准差。
- center_box浮点数(最小,最大),默认=(-10.0,10.0)
随机生成中心时每个集群中心的边界框。
- shuffle布尔,默认=True
洗牌样本。
- random_stateint,RandomState实例或无,默认=无
确定创建数据集的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .
- return_centers布尔,默认=假
如果为True,则返回每个集群的中心。
Added in version 0.23.
- 返回:
- X形状的nd数组(n_samples,n_features)
生成的样本。
- y形状的nd数组(n_samples,)
每个样本的集群成员资格的整数标签。
- centers形状的nd数组(n_center,n_features)
The centers of each cluster. Only returned if
return_centers=True
.
参见
make_classification
更复杂的变体。
示例
>>> from sklearn.datasets import make_blobs >>> X, y = make_blobs(n_samples=10, centers=3, n_features=2, ... random_state=0) >>> print(X.shape) (10, 2) >>> y array([0, 0, 1, 0, 2, 2, 2, 1, 1, 0]) >>> X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2, ... random_state=0) >>> print(X.shape) (10, 2) >>> y array([0, 1, 2, 0, 2, 2, 2, 1, 1, 0])