fetch_covtype#

sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#

加载coverype数据集(分类)。

如有必要,请下载。

7

样本总数

581012

维度

54

特征

int

阅读更多的 User Guide .

参数:
data_home字符串或类似路径,默认值=无

为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。

download_if_missing布尔,默认=True

如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。

random_stateint,RandomState实例或无,默认=无

确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

shuffle布尔,默认=假

是否洗牌数据集。

return_X_y布尔,默认=假

如果为True,则返回 (data.data, data.target) 而不是Bunch对象。

Added in version 0.20.

as_frame布尔,默认=假

如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字)的列。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果 return_X_y 是真的那 (data , target )将是pandas DataFrame或Series,如下所述。

Added in version 0.24.

n_retriesint,默认=3

遇到HTTP错误时的再试次数。

Added in version 1.5.

delayfloat,默认=1.0

再试之间的秒数。

Added in version 1.5.

返回:
dataset : Bunch

类似字典的对象,具有以下属性。

数据形状的nd数组(581012,54)

每一行对应于数据集中的54个特征。

目标形状的nd数组(581012,)

每个值对应于7个森林覆盖类型中的一个,值范围在1到7之间。

形状的框架(581012,55)

仅在当 as_frame=True .包含 datatarget .

DESCRstr

森林覆盖型数据集的描述。

feature_names列表

数据集列的名称。

目标名称:列表

目标列的名称。

(data, target) :tuple if return_X_y 是真tuple if return_X_y is True

由两个ndray组成的二元组。第一个包含形状的2D数组(n_samples,n_features),每一行代表一个样本,每一列代表特征。包含目标样本的形状(n_samples,)的第二个nd数组。

Added in version 0.20.

示例

>>> from sklearn.datasets import fetch_covtype
>>> cov_type = fetch_covtype()
>>> cov_type.data.shape
(581012, 54)
>>> cov_type.target.shape
(581012,)
>>> # Let's check the 4 first feature names
>>> cov_type.feature_names[:4]
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']