load_breast_cancer#

sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[源代码]#

加载并返回乳腺癌wisspel数据集(分类)。

乳腺癌数据集是一个经典且非常简单的二元分类数据集。

2

每类样本

212(男),357(B)

样本总数

569

维度

30

特征

真实的、积极的

UCI ML威斯康星州乳腺癌(诊断)数据集副本可从:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic下载

阅读更多的 User Guide .

参数:
return_X_y布尔,默认=假

如果为True,则返回 (data, target) 而不是Bunch对象。有关的更多信息,请参阅下文 datatarget object.

Added in version 0.18.

as_frame布尔,默认=假

如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字)的列。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果 return_X_y 是真的那 (data , target )将是pandas DataFrame或Series,如下所述。

Added in version 0.23.

返回:
data : Bunch

类似字典的对象,具有以下属性。

数据形状的{ndray,rame}(569,30)

数据矩阵。如果 as_frame=True , data 将是一个熊猫数据框架。

目标形状的{ndray,Series}(569,)

分类目标。如果 as_frame=True , target 将是一个熊猫系列。

feature_namesnd数组形状(30,)

数据集列的名称。

target_names形状的nd数组(2,)

目标类的名称。

形状的数据框架(569,31)

仅在当 as_frame=True .数据框架 datatarget .

Added in version 0.23.

DESCRstr

数据集的完整描述。

文件名str

数据位置的路径。

Added in version 0.20.

(data, target) :tuple if return_X_y 是真tuple if return_X_y is True

默认情况下是两个ndarray的元组。第一个包含形状为(569,30)的2D ndarray,每行表示一个样本,每列表示特征。形状为(569,)的第二个ndarray包含目标样本。 如果 as_frame=True ,这两个数组都是pandas对象,即 X 一个摇篮, y 一系列。

Added in version 0.18.

示例

假设您对样本10、50和85感兴趣,并且想知道它们的类别名称。

>>> from sklearn.datasets import load_breast_cancer
>>> data = load_breast_cancer()
>>> data.target[[10, 50, 85]]
array([0, 1, 0])
>>> list(data.target_names)
[np.str_('malignant'), np.str_('benign')]