r_regression#

sklearn.feature_selection.r_regression(X, y, *, center=True, force_finite=True)[源代码]#

计算每个特征和目标的Pearson r。

皮尔森r也称为皮尔森相关系数。

用于测试许多回归因子中每一个的个体效应的线性模型。这是一个用于特征选择过程的评分函数,而不是独立的特征选择过程。

每个回归量和目标之间的互相关计算为:

E[(X[:, i] - mean(X[:, i])) * (y - mean(y))] / (std(X[:, i]) * std(y))

有关使用的更多信息,请参阅 User Guide .

Added in version 1.0.

参数:
X形状(n_samples,n_features)的{类数组,稀疏矩阵}

数据矩阵。

y形状类似阵列(n_samples,)

目标载体。

center布尔,默认=True

是否将数据矩阵居中 X 和目标载体 y .默认情况下, Xy 将处于中心。

force_finite布尔,默认=True

是否强制Pearson ' s R相关性为有限。在某些功能中的特定情况下 X 或目标 y 都是恒定的,因此没有定义Pearson R相关性。当 force_finite=False ,相关性 np.nan 回来承认此案。当 force_finite=True ,此值将被强制为最小相关性 0.0 .

Added in version 1.1.

返回:
correlation_coefficient形状的nd数组(n_features,)

特征的Pearson R相关系数。

参见

f_regression

单变量线性回归测试返回f统计量和p值。

mutual_info_regression

连续目标的相互信息。

f_classif

分类任务的标签/特征之间的方差分析F值。

chi2

分类任务的非负特征的卡方统计数据。

示例

>>> from sklearn.datasets import make_regression
>>> from sklearn.feature_selection import r_regression
>>> X, y = make_regression(
...     n_samples=50, n_features=3, n_informative=1, noise=1e-4, random_state=42
... )
>>> r_regression(X, y)
array([-0.15...,  1.        , -0.22...])