8.1. 玩具数据集#

scikit-learn附带一些小型标准数据集，不需要从某些外部网站下载任何文件。

可以使用以下函数加载它们：

`load_iris`(*[, return_X_y, as_frame])	加载并返回虹膜数据集（分类）。
`load_diabetes`(*[, return_X_y, as_frame, scaled])	加载并返回糖尿病数据集（回归）。
`load_digits`(*[, n_class, return_X_y, as_frame])	加载并返回数字数据集（分类）。
`load_linnerud`(*[, return_X_y, as_frame])	加载并返回体育锻炼Linnerud数据集。
`load_wine`(*[, return_X_y, as_frame])	Load and return the wine dataset (classification).
`load_breast_cancer`(*[, return_X_y, as_frame])	加载并返回乳腺癌wisspel数据集（分类）。

这些数据集对于快速说明scikit-learn中实现的各种算法的行为非常有用。然而，它们通常太小，无法代表现实世界的机器学习任务。

8.1.1. 虹膜植物数据集#

Data Set Characteristics:

实例数:

150（三个班级每班50）

数量的属性:

4个数字、预测属性和类别

属性信息:

花瓣长度（厘米）
花瓣宽度（厘米）
花瓣长度（厘米）
花瓣宽度（厘米）
班级：
- Iris-setosa
- 艾里斯-维西色彩
- 艾丽丝-处女座

汇总统计量:


花瓣长度：	4.3	7.9	5.84	0.83	0.7826
花瓣宽度：	2.0	4.4	3.05	0.43	-0.4194
花瓣长度：	1.0	6.9	3.76	1.76	0.9490（高！）
花瓣宽度：	0.1	2.5	1.20	0.76	0.9565（高！）

缺少属性值:: 没有一
类分布:: 3个班级各33.3%。
创造者:: R.A. Fisher
捐助:: 迈克尔·马歇尔（MARSHALL%PLU@io. arc.nasa.gov）
日期:: 1988年7月

著名的Iris数据库，由RA爵士首先使用费希尔该数据集摘自费舍尔的论文。请注意，它与R中的相同，但与UCI机器学习存储库中的不同，后者有两个错误的数据点。

这也许是模式识别文献中最著名的数据库。费舍尔的论文是该领域的经典之作，至今仍被频繁引用。 (See例如，杜达和哈特。）该数据集包含3个类别，每个类别有50个实例，其中每个类别指的是一种虹膜植物。一个类与另2个类可线性分离;后者彼此不可线性分离。

8.1.2. 糖尿病数据集#

为n = 442名糖尿病患者中的每位患者获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值，以及感兴趣的反应（基线后一年疾病进展的量化指标）。

Data Set Characteristics:

实例数:

442

数量的属性:

前10列是数字预测值

目标:

第11列是基线后一年疾病进展的定量测量

属性信息:

年龄 age in years
性
BMI 体重指数
BP 平均血压
S1 TC，总血清胆固醇
S2 ldl，低密度脂蛋白
S3 hdl，高密度脂蛋白
S4 tch，总胆固醇/ HDL
S5 lTG，可能是血清三酸酯水平的log
S6 血糖、血糖水平

注意：这10个特征变量中的每一个都是以平均值为中心的，并通过标准差乘以 n_samples (i.e.每列的平方和总计1）。

来源网址：https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

有关更多信息，请参阅：Bradley Efron、Trevor Hastie、Iain Johnstone和Robert Tibshirani（2004）“最小角度回归”，《统计年鉴》（含讨论），407-499。（https：//web.stanford.edu/Journhastie/Papers/LARS/LeastAngle_2002.pdf）

8.1.3. 手写数字数据集的光学识别#

Data Set Characteristics:

实例数:

1797

数量的属性:

64

属性信息:

范围0内的整像素的8x 8图像。16.

缺少属性值:

没有一

创造者:

Alpaydin（alpaydin '@' boun.edu.tr）

日期:

7月; 1998年

这是UCI ML手写数字数据集测试集的副本https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

该数据集包含手写数字的图像：10个类别，每个类别引用一个数字。

使用NIH提供的预处理程序从预打印表格中提取手写数字的规范化位图。总共43人中，30人参与了训练集，13人参与了测试集。32 x32位地图被分成不重叠的4x 4块，并计算每个块中的on像素数量。这会生成一个8x 8的输入矩阵，其中每个元素都是0.范围内的一个积分。16.这减少了维度并赋予小失真不变性。

有关NIH预处理例程的信息，请参阅M。D.加里斯，J. L蓝色，G。T.坎德拉，D L. Dimmick、J. Geist、P. J. Grother、S. A.珍妮特和C。L. Wilson，NIH基于表格的手印识别系统，NISTLR 5469，1994。

8.1.4. 林纳鲁德数据集#

Data Set Characteristics:

实例数:: 20
数量的属性:: 3
缺少属性值:: 没有一

Linnerud数据集是一个多输出回归数据集。它由从健身俱乐部的二十名中年男性收集的三个运动（数据）和三个生理（目标）变量组成：

physiological - CSV包含对3个生理变量的20个观察结果：
体重、腰围和脉搏。
exercise - CSV包含3个运动变量的20个观察结果：
下巴、仰卧起坐和跳跃。

8.1.5. 葡萄酒识别数据集#

Data Set Characteristics:

实例数:

178

数量的属性:

13个数字，预测属性和类

属性信息:

醇
苹果酸
灰
灰烬的阿尔卡蒂
镁
总酚
黄酮类
非黄黄酮酚
原花青素
颜色强度
色调
稀释葡萄酒的OD 280/OD 315
脯氨酸
班级：
- class_0
- class_1
- class_2

汇总统计量:


酒精：	11.0	14.8	13.0	0.8
苹果酸：	0.74	5.80	2.34	1.12
灰：	1.36	3.23	2.36	0.27
灰烬的碱性：	10.6	30.0	19.5	3.3
镁：	70.0	162.0	99.7	14.3
总酚：	0.98	3.88	2.29	0.63
黄酮类物质：	0.34	5.08	2.03	1.00
非黄黄酮类酚：	0.13	0.66	0.36	0.12
原花青素：	0.41	3.58	1.59	0.57
颜色强度：	1.3	13.0	5.1	2.3
顺化：	0.48	1.71	0.96	0.23
稀释葡萄酒的OD 280/OD 315：	1.27	4.00	2.61	0.71
Pro：	278	1680	746	315

缺少属性值:: 没有一
类分布:: class_0（59）、class_1（71）、class_2（48）
创造者:: R.A. Fisher
捐助:: 迈克尔·马歇尔（MARSHALL%PLU@io. arc.nasa.gov）
日期:: 1988年7月

这是UCI ML葡萄酒识别数据集的副本。https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

该数据是对意大利同一地区三个不同种植者种植的葡萄酒进行化学分析的结果。针对这三种葡萄酒中的不同成分进行了十三种不同的测量。

原业主：

Forina，M.等人，PARVUS - An Extendible Package for Data Exploration，Classification and Correlation.药物和食品分析与技术研究所，Via Brigata Salerno，16147 Genoa，Italy。

引文：

利希曼，M.（2013）。UCI机器学习库 [https://archive.ics.uci.edu/ml] .加州欧文：加州大学信息与计算机科学学院。

8.1.6. 威斯康星州乳腺癌（诊断）数据集#

Data Set Characteristics:

实例数:

569

数量的属性:

30个数字，预测属性和类

属性信息:

半径（从中心到周边点的距离的平均值）
纹理（灰度值的标准差）
周边
区域
平滑度（半径长度的局部变化）
紧凑性（周长' 2/面积-1.0）
（轮廓凹陷部分的严重程度）
凹陷点（轮廓的凹陷部分的数量）
对称
分维（“海岸线逼近”- 1）

为每张图像计算这些特征的平均值、标准误差和“最差”或最大（三个最差/最大值的平均值），从而产生30个特征。例如，字段0是平均半径，字段10是半径SE，字段20是最差半径。

班级：
- WDBC-恶性
- WDBC-良性

汇总统计量:


半径（平均值）：	6.981	28.11
质地（平均值）：	9.71	39.28
周长（平均值）：	43.79	188.5
面积（平均值）：	143.5	2501.0
光滑度（平均值）：	0.053	0.163
紧凑性（平均值）：	0.019	0.345
（平均值）：	0.0	0.427
凹点（平均值）：	0.0	0.201
对称性（平均值）：	0.106	0.304
分维（平均值）：	0.05	0.097
半径（标准误差）：	0.112	2.873
纹理（标准误差）：	0.36	4.885
周长（标准误差）：	0.757	21.98
面积（标准误差）：	6.802	542.2
平滑度（标准误差）：	0.002	0.031
紧凑性（标准误差）：	0.002	0.135
（标准误差）：	0.0	0.396
凹点（标准误差）：	0.0	0.053
对称性（标准误差）：	0.008	0.079
分维（标准误差）：	0.001	0.03
半径（最差）：	7.93	36.04
质地（最差）：	12.02	49.54
周长（最差）：	50.41	251.2
区域（最差）：	185.2	4254.0
光滑度（最差）：	0.071	0.223
紧凑性（最差）：	0.027	1.058
（最差）：	0.0	1.252
凹陷点（最差）：	0.0	0.291
对称性（最差）：	0.156	0.664
分维（最差）：	0.055	0.208

缺少属性值:: 没有一
类分布:: 212 -恶性，357 -良性
创造者:: 威廉·H博士沃尔伯格，W.尼克街，奥尔维L。Mangasarian
捐助:: 尼克街
日期:: 一九九五年十一月

这是UCI ML威斯康星州乳腺癌（诊断）数据集的副本。https://goo.gl/U2Uwz2

特征是根据乳腺肿块细针吸出物（FNA）的数字化图像计算出来的。它们描述了图像中细胞核的特征。

上述分离平面是使用多表面方法树（MSM-T）获得的 [K. P. Bennett, "Decision Tree Construction Via Linear Programming." Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992] ，一种使用线性规划来构建决策树的分类方法。在1-4个特征和1-3个分离平面的空间中使用详尽搜索来选择相关特征。

用于获得三维空间中分离平面的实际线性程序描述如下： [K. P. Bennett and O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets", Optimization Methods and Software 1, 1992, 23-34] .

该数据库也可以通过UW CS ftp服务器访问：

https ftp.cs.wisc.edu光盘math-prog/cpo-dataset/machine-learn/WDBC/