load_iris#

sklearn.datasets.load_iris(*, return_X_y=False, as_frame=False)[源代码]#

加载并返回虹膜数据集(分类)。

虹膜数据集是一个经典且非常简单的多类分类数据集。

3

每类样本

50

样本总数

150

维度

4

特征

真实的、积极的

阅读更多的 User Guide .

在 0.20 版本发生变更: 根据费舍尔的论文修复了两个错误的数据点。新版本与R中的相同,但与UCI机器学习存储库中的不同。

参数:
return_X_y布尔,默认=假

如果为True,则返回 (data, target) 而不是Bunch对象。有关的更多信息,请参阅下文 datatarget object.

Added in version 0.18.

as_frame布尔,默认=假

如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字)的列。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果 return_X_y 是真的那 (data , target )将是pandas DataFrame或Series,如下所述。

Added in version 0.23.

返回:
data : Bunch

类似字典的对象,具有以下属性。

数据形状(150,4)的{ndray,rame}

数据矩阵。如果 as_frame=True , data 将是一个熊猫数据框架。

目标:{ndray,Series}形状(150,)

分类目标。如果 as_frame=True , target 将是一个熊猫系列。

feature_names:list

数据集列的名称。

目标名称:列表

目标类的名称。

框架:形状的数据框架(150,5)

仅在当 as_frame=True .数据框架 datatarget .

Added in version 0.23.

DESRC:字符串

数据集的完整描述。

文件名:字符串

数据位置的路径。

Added in version 0.20.

(data, target) :tuple if return_X_y 是真tuple if return_X_y is True

由两个ndray组成的二元组。第一个包含形状的2D数组(n_samples,n_features),每一行代表一个样本,每一列代表特征。包含目标样本的形状(n_samples,)的第二个nd数组。

Added in version 0.18.

示例

假设您对样本10、25和50感兴趣,并且想知道它们的类名称。

>>> from sklearn.datasets import load_iris
>>> data = load_iris()
>>> data.target[[10, 25, 50]]
array([0, 0, 1])
>>> list(data.target_names)
[np.str_('setosa'), np.str_('versicolor'), np.str_('virginica')]

看到 Iris数据集的主成分分析(PCA) 了解如何处理虹膜数据集的更详细示例。