fetch_kddcup99#
- sklearn.datasets.fetch_kddcup99(*, subset=None, data_home=None, shuffle=False, random_state=None, percent10=True, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#
加载kddcup 99数据集(分类)。
如有必要,请下载。
类
23
样本总数
4898431
维度
41
特征
离散(int)或连续(float)
阅读更多的 User Guide .
Added in version 0.18.
- 参数:
- subset' SA ',' SF ',' http ',默认=无
返回kddcup 99的相应经典子集。如果无,则返回整个kddcup 99数据集。
- data_home字符串或类似路径,默认值=无
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
Added in version 0.19.
- shuffle布尔,默认=假
是否洗牌数据集。
- random_stateint,RandomState实例或无,默认=无
确定数据集重排和异常样本选择的随机数生成,
subset='SA'
.传递int以获得跨多个函数调用的可重复输出。看到 Glossary .- percent10布尔,默认=True
是否仅加载10%的数据。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- return_X_y布尔,默认=假
如果为True,则返回
(data, target)
而不是Bunch对象。有关的更多信息,请参阅下文data
和target
object.Added in version 0.20.
- as_frame布尔,默认=假
如果
True
,返回熊猫的数据框data
和target
中的对象Bunch
返回的对象;Bunch
返回对象也将有frame
会员是否Added in version 0.24.
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- data :
Bunch
群 类似字典的对象,具有以下属性。
- 数据形状的{ndray,rame}(494021,41)
学习数据矩阵。如果
as_frame=True
,data
将是一个熊猫数据框架。- 目标{ndray,series}的形状(494021,)
每个样本的回归目标。如果
as_frame=True
,target
将是一个熊猫系列。- 帧形状的框架(494021,42)
仅在当
as_frame=True
.包含data
和target
.- DESCRstr
数据集的完整描述。
- feature_names列表
数据集列的名称
- 目标名称:列表
目标列的名称
- (data, target) :tuple if
return_X_y
是真tuple ifreturn_X_y
is True 由两个ndray组成的二元组。第一个包含形状的2D数组(n_samples,n_features),每一行代表一个样本,每一列代表特征。包含目标样本的形状(n_samples,)的第二个nd数组。
Added in version 0.20.
- data :