r_regression#

sklearn.feature_selection.r_regression(X, y, *, center=True, force_finite=True)[源代码]#

计算每个特征和目标的Pearson r。

皮尔森r也称为皮尔森相关系数。

用于测试许多回归因子中每一个的个体效应的线性模型。这是一个用于特征选择过程的评分函数，而不是独立的特征选择过程。

每个回归量和目标之间的互相关计算为：

E[(X[:, i] - mean(X[:, i])) * (y - mean(y))] / (std(X[:, i]) * std(y))

有关使用的更多信息，请参阅 User Guide .

Added in version 1.0.

参数:

X形状（n_samples，n_features）的{类数组，稀疏矩阵}: 数据矩阵。
y形状类似阵列（n_samples，）: 目标载体。
center布尔，默认=True: 是否将数据矩阵居中 X 和目标载体 y .默认情况下， X 和 y 将处于中心。
force_finite布尔，默认=True: 是否强制Pearson ' s R相关性为有限。在某些功能中的特定情况下 X 或目标 y 都是恒定的，因此没有定义Pearson R相关性。当 force_finite=False ，相关性 np.nan 回来承认此案。当 force_finite=True ，此值将被强制为最小相关性 0.0 .

Added in version 1.1.

返回:

correlation_coefficient形状的nd数组（n_features，）: 特征的Pearson R相关系数。

参见

f_regression: 单变量线性回归测试返回f统计量和p值。
mutual_info_regression: 连续目标的相互信息。
f_classif: 分类任务的标签/特征之间的方差分析F值。
chi2: 分类任务的非负特征的卡方统计数据。

示例

>>> from sklearn.datasets import make_regression
>>> from sklearn.feature_selection import r_regression
>>> X, y = make_regression(
...     n_samples=50, n_features=3, n_informative=1, noise=1e-4, random_state=42
... )
>>> r_regression(X, y)
array([-0.15...,  1.        , -0.22...])