make_gaussian_quantiles#

sklearn.datasets.make_gaussian_quantiles(*, mean=None, cov=1.0, n_samples=100, n_features=2, n_classes=3, shuffle=True, random_state=None)[源代码]#

生成各向同性高斯并通过分位数标记样本。

该分类数据集是通过采用多维标准正态分布并定义由嵌套的同心多维球体分开的类别来构建的,以便每个类别中的样本数量大致相等(的分位数) \(\chi^2\) 分配)。

阅读更多的 User Guide .

参数:
mean形状类似阵列(n_features,),默认=无

多维正态分布的平均值。如果无,则使用原点(0,0,.)。

covfloat,默认=1.0

协方差矩阵将是该值乘以单位矩阵。此数据集仅产生对称正态分布。

n_samplesint,默认=100

在各类别之间平均分配的总点数。

n_featuresint,默认=2

每个样本的特征数量。

n_classesint,默认=3

班级的数量。

shuffle布尔,默认=True

洗牌样本。

random_stateint,RandomState实例或无,默认=无

确定创建数据集的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

返回:
X形状的nd数组(n_samples,n_features)

生成的样本。

y形状的nd数组(n_samples,)

每个样本的分位数成员资格的整数标签。

注意到

数据集来自朱等人 [1] .

引用

[1]
  1. 朱,H. Zou,S.罗塞特,T. Hastie,“多类AdaBoost”,2009年。

示例

>>> from sklearn.datasets import make_gaussian_quantiles
>>> X, y = make_gaussian_quantiles(random_state=42)
>>> X.shape
(100, 2)
>>> y.shape
(100,)
>>> list(y[:5])
[np.int64(2), np.int64(0), np.int64(1), np.int64(0), np.int64(2)]