r_regression#
- sklearn.feature_selection.r_regression(X, y, *, center=True, force_finite=True)[源代码]#
计算每个特征和目标的Pearson r。
皮尔森r也称为皮尔森相关系数。
用于测试许多回归因子中每一个的个体效应的线性模型。这是一个用于特征选择过程的评分函数,而不是独立的特征选择过程。
每个回归量和目标之间的互相关计算为:
E[(X[:, i] - mean(X[:, i])) * (y - mean(y))] / (std(X[:, i]) * std(y))
有关使用的更多信息,请参阅 User Guide .
Added in version 1.0.
- 参数:
- X形状(n_samples,n_features)的{类数组,稀疏矩阵}
数据矩阵。
- y形状类似阵列(n_samples,)
目标载体。
- center布尔,默认=True
是否将数据矩阵居中
X
和目标载体y
.默认情况下,X
和y
将处于中心。- force_finite布尔,默认=True
是否强制Pearson ' s R相关性为有限。在某些功能中的特定情况下
X
或目标y
都是恒定的,因此没有定义Pearson R相关性。当force_finite=False
,相关性np.nan
回来承认此案。当force_finite=True
,此值将被强制为最小相关性0.0
.Added in version 1.1.
- 返回:
- correlation_coefficient形状的nd数组(n_features,)
特征的Pearson R相关系数。
参见
f_regression
单变量线性回归测试返回f统计量和p值。
mutual_info_regression
连续目标的相互信息。
f_classif
分类任务的标签/特征之间的方差分析F值。
chi2
分类任务的非负特征的卡方统计数据。
示例
>>> from sklearn.datasets import make_regression >>> from sklearn.feature_selection import r_regression >>> X, y = make_regression( ... n_samples=50, n_features=3, n_informative=1, noise=1e-4, random_state=42 ... ) >>> r_regression(X, y) array([-0.15..., 1. , -0.22...])