skbio.stats.ordination.ca

skbio.stats.ordination.ca(X, scaling=1)[源代码]

多元统计的计算对应分析

状态:自0.4.0起处于实验状态。上位的技巧。

通常,数据表中的行对应于样本,列对应于要素,但该方法是对称的。为了测量行和列之间的对应关系, \(\chi^2\) 使用距离,这些距离将保留在变换后的空间中。这个 \(\chi^2\) 距离没有考虑双零,因此当数据有很多零值时,它预计会比主成分分析产生更好的排序。

它与主成分分析(PCA)有关,但在陡峭或长梯度的情况下,即当输入数据矩阵中有许多零时,应首选它。

参数:
  • X (pd.DataFrame) -- 按要素采样表(n,m)。它可以应用于不同类型的数据表,但数据必须是非负的并且在维度上是同质的(定量或二进制)。行对应于样本,列对应于特征。

  • scaling ({1, 2}) --

    有关解释的更详细说明,请查看Legendre&Legendre 1998,第9.4.3节。以下是一些快速建议。

    扩展类型1保持不变 \(\chi^2\) 行之间的距离(样本):在变换后的空间中,行之间的欧几里得距离等于 \(\chi^2\) 原始空间中的行之间的距离。在研究样品排序时应使用该方法。列(要素)附近的行(样本)具有较高的贡献率。

    第2类伸缩保留 \(\chi^2\) 列(要素)之间的距离,因此变换后的列之间的欧几里得距离等于 \(\chi^2\) 原始空间中的列之间的距离。当我们对特征排序感兴趣时,它是最好的使用。紧挨着一行(样本)的一列(特征)意味着那里的元素更丰富。

    由于生态学家较少使用其他类型的定标,因此目前还没有实施(Legendre&Legendre 1998,p.456)。

    一般来说,远离双曲线图中心和远离其边缘的要素可能会表现出比位于中心的要素更好的关系(可能是多模式要素,与所示排序轴无关...)或者边缘(稀疏特征...)。

返回:

对象,该对象存储计算的特征值、变换的样本坐标、变换的特征坐标和解释的比例。

返回类型:

OrdinationResults

抛出:
  • NotImplementedError -- 如果缩放值既不是 12

  • ValueError -- 如果任何输入矩阵元素为负。

备注

该算法基于 [1], S 9.4.1.,预计将给出与 cca(X) 在R的包装里是素食者。

引用