fetch_covtype#
- sklearn.datasets.fetch_covtype(*, data_home=None, download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#
加载coverype数据集(分类)。
如有必要,请下载。
类
7
样本总数
581012
维度
54
特征
int
阅读更多的 User Guide .
- 参数:
- data_home字符串或类似路径,默认值=无
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- random_stateint,RandomState实例或无,默认=无
确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .
- shuffle布尔,默认=假
是否洗牌数据集。
- return_X_y布尔,默认=假
如果为True,则返回
(data.data, data.target)
而不是Bunch对象。Added in version 0.20.
- as_frame布尔,默认=假
如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字)的列。目标是pandas DataFrame或Series,具体取决于目标列的数量。如果
return_X_y
是真的那 (data
,target
)将是pandas DataFrame或Series,如下所述。Added in version 0.24.
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- dataset :
Bunch
群 类似字典的对象,具有以下属性。
- 数据形状的nd数组(581012,54)
每一行对应于数据集中的54个特征。
- 目标形状的nd数组(581012,)
每个值对应于7个森林覆盖类型中的一个,值范围在1到7之间。
- 帧形状的框架(581012,55)
仅在当
as_frame=True
.包含data
和target
.- DESCRstr
森林覆盖型数据集的描述。
- feature_names列表
数据集列的名称。
- 目标名称:列表
目标列的名称。
- (data, target) :tuple if
return_X_y
是真tuple ifreturn_X_y
is True 由两个ndray组成的二元组。第一个包含形状的2D数组(n_samples,n_features),每一行代表一个样本,每一列代表特征。包含目标样本的形状(n_samples,)的第二个nd数组。
Added in version 0.20.
- dataset :
示例
>>> from sklearn.datasets import fetch_covtype >>> cov_type = fetch_covtype() >>> cov_type.data.shape (581012, 54) >>> cov_type.target.shape (581012,) >>> # Let's check the 4 first feature names >>> cov_type.feature_names[:4] ['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology']