dump_svmlight_file#

sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[源代码]#

以svmlight / libsvm文件格式转储数据集。

此格式是基于文本的格式,每行一个样本。它不存储零值特征,因此适用于稀疏数据集。

每一行的第一个元素可以用于存储要预测的目标变量。

参数:
X形状(n_samples,n_features)的{类数组,稀疏矩阵}

训练载体,在哪里 n_samples 是样本数量和 n_features 是功能的数量。

y{类数组,稀疏矩阵},形状=(n_samples,)或(n_samples,n_labels)

目标值。类标签必须是整型或浮点数,或者是多标签分类的整型或浮点数类数组对象。

f二进制模式下字符串或类似文件

如果是字符串,则指定包含数据的路径。如果类似于文件,则数据将被写入f。f应该以二进制模式打开。

zero_based布尔,默认=True

列索引是否应该以零为起点(True)还是以一为起点(False)。

comment字符串或字节,默认=无

要插入到文件顶部的注释。这应该是Unicode字符串(将编码为UTF-8),也应该是ASC字节字符串。如果给出了评论,则在评论之前会加上一条表明该文件已被scikit-learn丢弃的评论。请注意,并非所有工具都会在SVMlight文件中删除评论。

query_id形状类似数组(n_samples,),默认=无

包含成对偏好约束的数组(svmlight格式的qid)。

multilabel布尔,默认=假

每个样本可能有多个标签(请参阅https://www.csie.ntu.edu.tw/cjlin/libsvmtools/ets/multilabel.html)。

Added in version 0.17: 参数 multilabel 以支持多标签数据集。

示例

>>> from sklearn.datasets import dump_svmlight_file, make_classification
>>> X, y = make_classification(random_state=0)
>>> output_file = "my_dataset.svmlight"
>>> dump_svmlight_file(X, y, output_file)