8. 数据集加载实用程序#
的 sklearn.datasets
包嵌入了一些小型玩具数据集,并提供帮助来获取机器学习社区常用的更大数据集,以根据来自“现实世界”的数据对算法进行基准测试。
评估数据集规模的影响 (n_samples
和 n_features
)在控制数据的统计属性(通常是特征的相关性和信息性)的同时,还可以生成合成数据。
General dataset API. 根据所需的数据集类型,有三种主要的数据集接口可用于获取数据集。
The dataset loaders. 它们可用于加载小型标准数据集,如 玩具数据集 科.
The dataset fetchers. 它们可用于下载和加载更大的数据集,如 真实世界的数据集 科.
加载器和获取器函数都返回 Bunch
至少容纳两个项目的对象:形状阵列 n_samples
* n_features
与主要 data
(20个新闻组除外)和长度麻木的数组 n_samples
,包含目标值,带键 target
.
Bunch对象是一个字典,将其键公开为属性。有关Bunch对象的更多信息,请参阅 Bunch
.
通过设置 return_X_y
参数以 True
.
这些数据集还包含完整描述 DESCR
属性和一些包含 feature_names
和 target_names
.有关详细信息,请参阅下面的数据集描述。
The dataset generation functions. 它们可用于生成受控合成数据集,如 生成的数据集 科.
这些函数返回一个二元组 (X, y)
组成 n_samples
* n_features
numpy数组 X
和长度数组 n_samples
包含靶 y
.
此外,还有各种工具可用于加载其他格式的数据集或从其他位置加载数据集,如 加载其他数据集 科.