简单二进制相异矩阵格式 (skbio.io.format.binary_dm )

二进制相异度矩阵格式 (binary_dm )对相异矩阵和距离矩阵的二进制表示进行编码。该格式旨在促进对中空矩阵的个别行或列的快速随机访问。

格式支持

有嗅探员:是的

读者

writer

对象类

是的

是的

skbio.stats.distance.DissimilarityMatrix

是的

是的

skbio.stats.distance.DistanceMatrix

格式规范

二进制相异度矩阵和对象标识符存储在HDF5内 [1] 文件。这两种数据类型都由它们自己的数据集表示。这个 ids DataSet是可变长度Unicode类型,而 matrix 数据集是浮点型。它的形状 ids(N,) ,以及 dissimilarities(N, N) 。的对角线 matrix 都是零。

两者之间的不同 ids[i]ids[j] 被解释为 matrix[i, j]ij 是整数索引。

必需的属性:

属性

值类型

描述

格式

细绳

将文件标识为二进制DM格式的字符串

版本

细绳

当前二进制DM格式的版本

矩阵

Float32或Float64

包含相异矩阵的值的(N,N)数据集

订单

细绳

样本ID的(N,)个数据集,其中N是ID总数

备注

此文件格式对于存储不需要以人类可读格式表示的大型矩阵最为有用。该格式特别适合于促进对距离矩阵中的条目的随机访问,例如当计算大矩阵中的样本子集的距离内和距离之间时。

引用