make_regression#

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)[源代码]#

生成随机回归问题。

输入集可以是良好的条件(默认情况下),也可以具有低等级脂肪尾部奇异轮廓。看到 make_low_rank_matrix 了解更多详细信息。

输出是通过应用(潜在有偏差)随机线性回归模型生成的, n_informative 先前生成的输入的非零回归量和具有某种可调尺度的以高斯为中心的噪声。

阅读更多的 User Guide .

参数:
n_samplesint,默认=100

样本数量。

n_featuresint,默认=100

功能的数量。

n_informativeint,默认值=10

信息性特征的数量,即用于构建用于生成输出的线性模型的特征数量。

n_targetsint,默认=1

回归目标的数量,即与样本相关的y输出载体的维度。默认情况下,输出是纯量。

biasfloat,默认=0.0

基础线性模型中的偏差项。

effective_rankint,默认=无
如果不是无:

通过线性组合解释大多数输入数据所需的奇异载体的大约数量。在输入中使用这种奇异谱允许生成器重现实践中经常观察到的相关性。

如果没有:

输入集条件良好、中心化且具有单位方差的高斯性。

tail_strength浮点数,默认值=0.5

奇异值轮廓的粗噪音尾部的相对重要性,如果 effective_rank 不是没有。当是浮点数时,它应该介于0和1之间。

noisefloat,默认=0.0

The standard deviation of the gaussian noise applied to the output.

shuffle布尔,默认=True

洗牌样本和功能。

coef布尔,默认=假

如果为True,则返回基础线性模型的系数。

random_stateint,RandomState实例或无,默认=无

确定创建数据集的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

返回:
X形状的nd数组(n_samples,n_features)

输入样本。

y形状的nd数组(n_samples,)或(n_samples,n_targets)

输出值。

coef形状的nd数组(n_features,)或(n_features,n_targets)

基础线性模型的系数。只有当coef为True时,它才会返回。

示例

>>> from sklearn.datasets import make_regression
>>> X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
>>> X
array([[ 0.4967..., -0.1382... ],
    [ 0.6476...,  1.523...],
    [-0.2341..., -0.2341...],
    [-0.4694...,  0.5425...],
    [ 1.579...,  0.7674...]])
>>> y
array([  6.737...,  37.79..., -10.27...,   0.4017...,   42.22...])