dump_svmlight_file#
- sklearn.datasets.dump_svmlight_file(X, y, f, *, zero_based=True, comment=None, query_id=None, multilabel=False)[源代码]#
以svmlight / libsvm文件格式转储数据集。
此格式是基于文本的格式,每行一个样本。它不存储零值特征,因此适用于稀疏数据集。
每一行的第一个元素可以用于存储要预测的目标变量。
- 参数:
- X形状(n_samples,n_features)的{类数组,稀疏矩阵}
训练载体,在哪里
n_samples
是样本数量和n_features
是功能的数量。- y{类数组,稀疏矩阵},形状=(n_samples,)或(n_samples,n_labels)
目标值。类标签必须是整型或浮点数,或者是多标签分类的整型或浮点数类数组对象。
- f二进制模式下字符串或类似文件
如果是字符串,则指定包含数据的路径。如果类似于文件,则数据将被写入f。f应该以二进制模式打开。
- zero_based布尔,默认=True
列索引是否应该以零为起点(True)还是以一为起点(False)。
- comment字符串或字节,默认=无
要插入到文件顶部的注释。这应该是Unicode字符串(将编码为UTF-8),也应该是ASC字节字符串。如果给出了评论,则在评论之前会加上一条表明该文件已被scikit-learn丢弃的评论。请注意,并非所有工具都会在SVMlight文件中删除评论。
- query_id形状类似数组(n_samples,),默认=无
包含成对偏好约束的数组(svmlight格式的qid)。
- multilabel布尔,默认=假
每个样本可能有多个标签(请参阅https://www.csie.ntu.edu.tw/cjlin/libsvmtools/ets/multilabel.html)。
Added in version 0.17: 参数
multilabel
以支持多标签数据集。
示例
>>> from sklearn.datasets import dump_svmlight_file, make_classification >>> X, y = make_classification(random_state=0) >>> output_file = "my_dataset.svmlight" >>> dump_svmlight_file(X, y, output_file)