load_iris#

sklearn.datasets.load_iris(*, return_X_y=False, as_frame=False)[源代码]#

加载并返回虹膜数据集（分类）。

虹膜数据集是一个经典且非常简单的多类分类数据集。

类	3
每类样本	50
样本总数	150
维度	4
特征	真实的、积极的

阅读更多的 User Guide .

在 0.20 版本发生变更: 根据费舍尔的论文修复了两个错误的数据点。新版本与R中的相同，但与UCI机器学习存储库中的不同。

参数:

return_X_y布尔，默认=假: 如果为True，则返回 (data, target) 而不是Bunch对象。有关的更多信息，请参阅下文 data 和 target object.

Added in version 0.18.
as_frame布尔，默认=假: 如果为True，则数据是pandas DataFrame，包括具有适当数据类型（数字）的列。目标是pandas DataFrame或Series，具体取决于目标列的数量。如果 return_X_y 是真的那 (data , target ）将是pandas DataFrame或Series，如下所述。

Added in version 0.23.

返回:

data : Bunch群

类似字典的对象，具有以下属性。

数据形状（150，4）的{ndray，rame}: 数据矩阵。如果 as_frame=True , data 将是一个熊猫数据框架。
目标：{ndray，Series}形状（150，）: 分类目标。如果 as_frame=True , target 将是一个熊猫系列。
feature_names：list: 数据集列的名称。
目标名称：列表: 目标类的名称。
框架：形状的数据框架（150，5）: 仅在当 as_frame=True .数据框架 data 和 target .

Added in version 0.23.
DESRC：字符串: 数据集的完整描述。
文件名：字符串: 数据位置的路径。

Added in version 0.20.

(data, target) ：tuple if return_X_y 是真tuple if return_X_y is True

由两个ndray组成的二元组。第一个包含形状的2D数组（n_samples，n_features），每一行代表一个样本，每一列代表特征。包含目标样本的形状（n_samples，）的第二个nd数组。

Added in version 0.18.

示例

假设您对样本10、25和50感兴趣，并且想知道它们的类名称。

>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.target[[10, 25, 50]]
array([0, 0, 1])
>>> list(data.target_names)
[np.str_('setosa'), np.str_('versicolor'), np.str_('virginica')]

看到 Iris数据集的主成分分析（PCA）了解如何处理虹膜数据集的更详细示例。

画廊示例#

具有交叉验证的接收器工作特性（ROC）

Receiver Operating Characteristic (ROC) with cross validation