load_breast_cancer#
- sklearn.datasets.load_breast_cancer(*, return_X_y=False, as_frame=False)[源代码]#
加载并返回乳腺癌wisspel数据集(分类)。
乳腺癌数据集是一个经典且非常简单的二元分类数据集。
类
2
每类样本
212(男),357(B)
样本总数
569
维度
30
特征
真实的、积极的
UCI ML威斯康星州乳腺癌(诊断)数据集副本可从:https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic下载
阅读更多的 User Guide .
- 参数:
- return_X_y布尔,默认=假
如果为True,则返回
(data, target)
而不是Bunch对象。有关的更多信息,请参阅下文data
和target
object.Added in version 0.18.
- as_frame布尔,默认=假
如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字)的列。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果
return_X_y
是真的那 (data
,target
)将是pandas DataFrame或Series,如下所述。Added in version 0.23.
- 返回:
- data :
Bunch
群 类似字典的对象,具有以下属性。
- 数据形状的{ndray,rame}(569,30)
数据矩阵。如果
as_frame=True
,data
将是一个熊猫数据框架。- 目标形状的{ndray,Series}(569,)
分类目标。如果
as_frame=True
,target
将是一个熊猫系列。- feature_namesnd数组形状(30,)
数据集列的名称。
- target_names形状的nd数组(2,)
目标类的名称。
- 帧形状的数据框架(569,31)
仅在当
as_frame=True
.数据框架data
和target
.Added in version 0.23.
- DESCRstr
数据集的完整描述。
- 文件名str
数据位置的路径。
Added in version 0.20.
- (data, target) :tuple if
return_X_y
是真tuple ifreturn_X_y
is True 默认情况下是两个ndarray的元组。第一个包含形状为(569,30)的2D ndarray,每行表示一个样本,每列表示特征。形状为(569,)的第二个ndarray包含目标样本。 如果
as_frame=True
,这两个数组都是pandas对象,即X
一个摇篮,y
一系列。Added in version 0.18.
- data :
示例
假设您对样本10、50和85感兴趣,并且想知道它们的类别名称。
>>> from sklearn.datasets import load_breast_cancer >>> data = load_breast_cancer() >>> data.target[[10, 50, 85]] array([0, 1, 0]) >>> list(data.target_names) [np.str_('malignant'), np.str_('benign')]