8.1. 玩具数据集#

scikit-learn附带一些小型标准数据集,不需要从某些外部网站下载任何文件。

可以使用以下函数加载它们:

load_iris(*[, return_X_y, as_frame])

加载并返回虹膜数据集(分类)。

load_diabetes(*[, return_X_y, as_frame, scaled])

加载并返回糖尿病数据集(回归)。

load_digits(*[, n_class, return_X_y, as_frame])

加载并返回数字数据集(分类)。

load_linnerud(*[, return_X_y, as_frame])

加载并返回体育锻炼Linnerud数据集。

load_wine(*[, return_X_y, as_frame])

Load and return the wine dataset (classification).

load_breast_cancer(*[, return_X_y, as_frame])

加载并返回乳腺癌wisspel数据集(分类)。

这些数据集对于快速说明scikit-learn中实现的各种算法的行为非常有用。然而,它们通常太小,无法代表现实世界的机器学习任务。

8.1.1. 虹膜植物数据集#

Data Set Characteristics:

实例数:

150(三个班级每班50)

数量的属性:

4个数字、预测属性和类别

属性信息:
  • 花瓣长度(厘米)

  • 花瓣宽度(厘米)

  • 花瓣长度(厘米)

  • 花瓣宽度(厘米)

  • 班级:
    • Iris-setosa

    • 艾里斯-维西色彩

    • 艾丽丝-处女座

汇总统计量:

花瓣长度:

4.3

7.9

5.84

0.83

0.7826

花瓣宽度:

2.0

4.4

3.05

0.43

-0.4194

花瓣长度:

1.0

6.9

3.76

1.76

0.9490(高!)

花瓣宽度:

0.1

2.5

1.20

0.76

0.9565(高!)

缺少属性值:

没有一

类分布:

3个班级各33.3%。

创造者:

R.A. Fisher

捐助:

迈克尔·马歇尔(MARSHALL%PLU@io. arc.nasa.gov)

日期:

1988年7月

著名的Iris数据库,由RA爵士首先使用费希尔该数据集摘自费舍尔的论文。请注意,它与R中的相同,但与UCI机器学习存储库中的不同,后者有两个错误的数据点。

这也许是模式识别文献中最著名的数据库。 费舍尔的论文是该领域的经典之作,至今仍被频繁引用。 (See例如,杜达和哈特。) 该数据集包含3个类别,每个类别有50个实例,其中每个类别指的是一种虹膜植物。 一个类与另2个类可线性分离;后者彼此不可线性分离。

引用#
  • 费舍尔,RA“分类问题中多重测量的使用”优生学年鉴,7,第二部分,179-188(1936);另见“对数学统计的贡献”(约翰·威利,纽约州,1950)。

  • Duda,R.O.,& Hart,P.E.(1973)模式分类和场景分析。(Q327.D83)约翰威利父子公司。 ISBN 0-471-22361-1。 参见第218页。

  • Dasarathy,B. V.(1980)“鼻子周围:部分暴露环境中识别的新系统结构和分类规则”。 IEEE模式分析和机器智能交易,PAMI-2卷,第1期,67-71。

  • 盖茨,GW(1972)“简化最近邻居规则”。 IEEE信息理论交易,1972年5月,431-433。

  • 另见:1988年MLC会议记录,第54-64页。 Cheeseman等人的AUTOCLASS II概念聚类系统在数据中发现了3个类。

  • 很多很多.

8.1.2. 糖尿病数据集#

为n = 442名糖尿病患者中的每位患者获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及感兴趣的反应(基线后一年疾病进展的量化指标)。

Data Set Characteristics:

实例数:

442

数量的属性:

前10列是数字预测值

目标:

第11列是基线后一年疾病进展的定量测量

属性信息:
  • 年龄 age in years

  • BMI 体重指数

  • BP 平均血压

  • S1 TC,总血清胆固醇

  • S2 ldl,低密度脂蛋白

  • S3 hdl,高密度脂蛋白

  • S4 tch,总胆固醇/ HDL

  • S5 lTG,可能是血清三酸酯水平的log

  • S6 血糖、血糖水平

注意:这10个特征变量中的每一个都是以平均值为中心的,并通过标准差乘以 n_samples (i.e.每列的平方和总计1)。

来源网址:https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

有关更多信息,请参阅:Bradley Efron、Trevor Hastie、Iain Johnstone和Robert Tibshirani(2004)“最小角度回归”,《统计年鉴》(含讨论),407-499。(https://web.stanford.edu/Journhastie/Papers/LARS/LeastAngle_2002.pdf)

8.1.3. 手写数字数据集的光学识别#

Data Set Characteristics:

实例数:

1797

数量的属性:

64

属性信息:

范围0内的整像素的8x 8图像。16.

缺少属性值:

没有一

创造者:
  1. Alpaydin(alpaydin '@' boun.edu.tr)

日期:

7月; 1998年

这是UCI ML手写数字数据集测试集的副本https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

该数据集包含手写数字的图像:10个类别,每个类别引用一个数字。

使用NIH提供的预处理程序从预打印表格中提取手写数字的规范化位图。总共43人中,30人参与了训练集,13人参与了测试集。32 x32位地图被分成不重叠的4x 4块,并计算每个块中的on像素数量。这会生成一个8x 8的输入矩阵,其中每个元素都是0.范围内的一个积分。16.这减少了维度并赋予小失真不变性。

有关NIH预处理例程的信息,请参阅M。D.加里斯,J. L蓝色,G。T.坎德拉,D L. Dimmick、J. Geist、P. J. Grother、S. A.珍妮特和C。L. Wilson,NIH基于表格的手印识别系统,NISTLR 5469,1994。

引用#
  • C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.

    1. 阿尔帕丁,C. Kaynak(1998)Cascading Classifiers,Kybernetika。

  • Ken Tang和Ponnuthurai N. Suganathan、West Yao和A.凯琴。使用相关性加权LDA进行线性降维。南洋理工大学电气与电子工程学院。2005.

  • 克劳迪奥·詹蒂莱一种新的近似最大间隔分类算法。NIPS。2000.

8.1.4. 林纳鲁德数据集#

Data Set Characteristics:

实例数:

20

数量的属性:

3

缺少属性值:

没有一

Linnerud数据集是一个多输出回归数据集。它由从健身俱乐部的二十名中年男性收集的三个运动(数据)和三个生理(目标)变量组成:

  • physiological - CSV包含对3个生理变量的20个观察结果:

    体重、腰围和脉搏。

  • exercise - CSV包含3个运动变量的20个观察结果:

    下巴、仰卧起坐和跳跃。

引用#
  • Tenenhaus,M.(1998)。回归最大限度:理论与实践。巴黎:技术版。

8.1.5. 葡萄酒识别数据集#

Data Set Characteristics:

实例数:

178

数量的属性:

13个数字,预测属性和类

属性信息:
  • 苹果酸

  • 灰烬的阿尔卡蒂

  • 总酚

  • 黄酮类

  • 非黄黄酮酚

  • 原花青素

  • 颜色强度

  • 色调

  • 稀释葡萄酒的OD 280/OD 315

  • 脯氨酸

  • 班级:
    • class_0

    • class_1

    • class_2

汇总统计量:

酒精:

11.0

14.8

13.0

0.8

苹果酸:

0.74

5.80

2.34

1.12

灰:

1.36

3.23

2.36

0.27

灰烬的碱性:

10.6

30.0

19.5

3.3

镁:

70.0

162.0

99.7

14.3

总酚:

0.98

3.88

2.29

0.63

黄酮类物质:

0.34

5.08

2.03

1.00

非黄黄酮类酚:

0.13

0.66

0.36

0.12

原花青素:

0.41

3.58

1.59

0.57

颜色强度:

1.3

13.0

5.1

2.3

顺化:

0.48

1.71

0.96

0.23

稀释葡萄酒的OD 280/OD 315:

1.27

4.00

2.61

0.71

Pro:

278

1680

746

315

缺少属性值:

没有一

类分布:

class_0(59)、class_1(71)、class_2(48)

创造者:

R.A. Fisher

捐助:

迈克尔·马歇尔(MARSHALL%PLU@io. arc.nasa.gov)

日期:

1988年7月

这是UCI ML葡萄酒识别数据集的副本。https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

该数据是对意大利同一地区三个不同种植者种植的葡萄酒进行化学分析的结果。针对这三种葡萄酒中的不同成分进行了十三种不同的测量。

原业主:

Forina,M.等人,PARVUS - An Extendible Package for Data Exploration,Classification and Correlation.药物和食品分析与技术研究所,Via Brigata Salerno,16147 Genoa,Italy。

引文:

利希曼,M.(2013)。UCI机器学习库 [https://archive.ics.uci.edu/ml] .加州欧文:加州大学信息与计算机科学学院。

引用#

(1)S.埃伯哈德,D.库曼斯和O. de Vel,多维环境中分类器的比较,技术。代表号92-02,(1992),部门计算机科学系数学与统计学,北昆士兰詹姆斯库克大学。(Also提交给Technographics)。

这些数据与许多其他数据一起用于比较各种分类器。这些类别是可分离的,尽管只有RDA实现了100%正确的分类。(RDA:100%,QDA 99.4%,LDA 98.9%,1NN 96.1%(z转换数据))(所有结果均采用留一法)

(2)S.埃伯哈德,D.库曼斯和O. de Vel,“LDA的分类性能”技术。代表号92-01,(1992),部门计算机科学系数学与统计学,北昆士兰詹姆斯库克大学。(Also提交给《化学计量学杂志》)。

8.1.6. 威斯康星州乳腺癌(诊断)数据集#

Data Set Characteristics:

实例数:

569

数量的属性:

30个数字,预测属性和类

属性信息:
  • 半径(从中心到周边点的距离的平均值)

  • 纹理(灰度值的标准差)

  • 周边

  • 区域

  • 平滑度(半径长度的局部变化)

  • 紧凑性(周长' 2/面积-1.0)

  • (轮廓凹陷部分的严重程度)

  • 凹陷点(轮廓的凹陷部分的数量)

  • 对称

  • 分维(“海岸线逼近”- 1)

为每张图像计算这些特征的平均值、标准误差和“最差”或最大(三个最差/最大值的平均值),从而产生30个特征。 例如,字段0是平均半径,字段10是半径SE,字段20是最差半径。

  • 班级:
    • WDBC-恶性

    • WDBC-良性

汇总统计量:

半径(平均值):

6.981

28.11

质地(平均值):

9.71

39.28

周长(平均值):

43.79

188.5

面积(平均值):

143.5

2501.0

光滑度(平均值):

0.053

0.163

紧凑性(平均值):

0.019

0.345

(平均值):

0.0

0.427

凹点(平均值):

0.0

0.201

对称性(平均值):

0.106

0.304

分维(平均值):

0.05

0.097

半径(标准误差):

0.112

2.873

纹理(标准误差):

0.36

4.885

周长(标准误差):

0.757

21.98

面积(标准误差):

6.802

542.2

平滑度(标准误差):

0.002

0.031

紧凑性(标准误差):

0.002

0.135

(标准误差):

0.0

0.396

凹点(标准误差):

0.0

0.053

对称性(标准误差):

0.008

0.079

分维(标准误差):

0.001

0.03

半径(最差):

7.93

36.04

质地(最差):

12.02

49.54

周长(最差):

50.41

251.2

区域(最差):

185.2

4254.0

光滑度(最差):

0.071

0.223

紧凑性(最差):

0.027

1.058

(最差):

0.0

1.252

凹陷点(最差):

0.0

0.291

对称性(最差):

0.156

0.664

分维(最差):

0.055

0.208

缺少属性值:

没有一

类分布:

212 -恶性,357 -良性

创造者:

威廉·H博士沃尔伯格,W.尼克街,奥尔维L。Mangasarian

捐助:

尼克街

日期:

一九九五年十一月

这是UCI ML威斯康星州乳腺癌(诊断)数据集的副本。https://goo.gl/U2Uwz2

特征是根据乳腺肿块细针吸出物(FNA)的数字化图像计算出来的。 它们描述了图像中细胞核的特征。

上述分离平面是使用多表面方法树(MSM-T)获得的 [K. P. Bennett, "Decision Tree Construction Via Linear Programming." Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992] ,一种使用线性规划来构建决策树的分类方法。 在1-4个特征和1-3个分离平面的空间中使用详尽搜索来选择相关特征。

用于获得三维空间中分离平面的实际线性程序描述如下: [K. P. Bennett and O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets", Optimization Methods and Software 1, 1992, 23-34] .

该数据库也可以通过UW CS ftp服务器访问:

https ftp.cs.wisc.edu光盘math-prog/cpo-dataset/machine-learn/WDBC/

引用#
  • 万维网怀俄明州街道沃尔伯格和OL曼加萨里。用于乳腺肿瘤诊断的核特征提取。IS & T/SPIE 1993国际电子成像研讨会:科学与技术,第1905卷,第861-870页,加利福尼亚州圣何塞,1993年。

  • O.L. Mangasarian,W.N. Street和WH沃尔伯格通过线性规划进行乳腺癌诊断和预后。Operations Research,43(4),第570-577页,1995年7月至8月。

  • W.H.沃尔伯格,内华达州街,和O.L.曼加萨里。通过细针吸出物诊断乳腺癌的机器学习技术。癌症快报77(1994)163-171.