skbio.stats.ordination.rda¶
- skbio.stats.ordination.rda(y, x, scale_Y=False, scaling=1)[源代码]¶
计算冗余分析,一种规范分析。
状态:从0.4.0开始实验。
它与主成分分析和多元回归有关,因为被解释的变量 y 与解释变量相适应 x 然后对拟合值执行主成分分析。对残差进行类似的处理。
如果学习的梯度较小,则应选择RDA,当学习的梯度较大时,应选择CCA,这样列联表就是稀疏的。
- 参数:
y (pd.DataFrame) -- \(n \times p\) 响应矩阵,其中 \(n\) 是样本的数量和 \(p\) 是要素的数量。它的列需要在维度上是均匀的(或者您可以设置 scale_Y=True )。该矩阵也称为群落矩阵,通常存储有关物种丰度的信息
x (pd.DataFrame) -- \(n \times m, n \geq m\) 解释变量矩阵,其中 \(n\) 是样本的数量和 \(m\) 元数据变量的数量。它的列不需要标准化,但这样做会将回归系数转换为标准回归系数。
scale_Y (bool, optional) -- 控制是否将响应矩阵列缩放为具有单位标准偏差。默认为 False 。
scaling (int) -- 缩放类型1会生成距离双曲线。它侧重于行(样本)的排序,因为它们的变换距离接近它们原始的欧几里德距离。当大多数解释变量都是二进制时,尤其有趣。标度类型2会产生相关双曲线图。它侧重于被解释变量之间的关系 (y )。它被解释为类似于缩放类型1,但考虑到对象之间的距离不接近其欧几里得距离。有关距离和相关性双曲线的更多详细信息,请参阅 [1], S 9.1.4。
- 返回:
存储计算的特征值、每个特征值解释的比例(单位)、要素和样本的转换坐标、双曲线图分数、样本约束等的对象。
- 返回类型:
参见
备注
该算法基于 [1], S 11.1,预计将给出与
rda(y, x)
在R的包装里是素食者。素食中报告的特征值被重新归一化为 \(\sqrt{\frac{s}{n-1}}\) n 是样本数,并且 s 是原始的特征值。在这里,我们将只返回原始特征值,如 [1].引用