fetch_covtype#

sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#

加载coverype数据集（分类）。

如有必要，请下载。

类	7
样本总数	581012
维度	54
特征	int

阅读更多的 User Guide .

参数:

data_home字符串或类似路径，默认值=无: 为数据集指定另一个下载和缓存文件夹。默认情况下，所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
download_if_missing布尔，默认=True: 如果为假，如果数据在本地不可用，则引发OSEross，而不是尝试从源网站下载数据。
random_stateint，RandomState实例或无，默认=无: 确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .
shuffle布尔，默认=假: 是否洗牌数据集。
return_X_y布尔，默认=假: 如果为True，则返回 (data.data, data.target) 而不是Bunch对象。

Added in version 0.20.
as_frame布尔，默认=假: 如果为True，则数据是pandas DataFrame，包括具有适当数据类型（数字）的列。目标是pandas DataFrame或Series，具体取决于目标列的数量。如果 return_X_y 是真的那 (data , target ）将是pandas DataFrame或Series，如下所述。

Added in version 0.24.
n_retriesint，默认=3: 遇到HTTP错误时的再试次数。

Added in version 1.5.
delayfloat，默认=1.0: 再试之间的秒数。

Added in version 1.5.

返回:

dataset : Bunch群

类似字典的对象，具有以下属性。

数据形状的nd数组（581012，54）: 每一行对应于数据集中的54个特征。
目标形状的nd数组（581012，）: 每个值对应于7个森林覆盖类型中的一个，值范围在1到7之间。
帧形状的框架（581012，55）: 仅在当 as_frame=True .包含 data 和 target .
DESCRstr: 森林覆盖型数据集的描述。
feature_names列表: 数据集列的名称。
目标名称：列表: 目标列的名称。

(data, target) ：tuple if return_X_y 是真tuple if return_X_y is True

由两个ndray组成的二元组。第一个包含形状的2D数组（n_samples，n_features），每一行代表一个样本，每一列代表特征。包含目标样本的形状（n_samples，）的第二个nd数组。

Added in version 0.20.

示例

>>> from sklearn.datasets import fetch_covtype
>>> cov_type = fetch_covtype()
>>> cov_type.data.shape
(581012, 54)
>>> cov_type.target.shape
(581012,)
>>> # Let's check the 4 first feature names
>>> cov_type.feature_names[:4]
['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']