fetch_california_housing#

sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#

加载加州住房数据集(回归)。

样本总数

20640

维度

8

特征

目标

真正的0.15 - 5。

阅读更多的 User Guide .

参数:
data_home字符串或类似路径,默认值=无

为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。

download_if_missing布尔,默认=True

如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。

return_X_y布尔,默认=假

如果为True,则返回 (data.data, data.target) 而不是Bunch对象。

Added in version 0.20.

as_frame布尔,默认=假

如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字、字符串或类别)的列。目标是pandas DataFrame或Series,具体取决于目标_列的数量。

Added in version 0.23.

n_retriesint,默认=3

遇到HTTP错误时的再试次数。

Added in version 1.5.

delayfloat,默认=1.0

再试之间的秒数。

Added in version 1.5.

返回:
dataset : Bunch

类似字典的对象,具有以下属性。

数据ndray,shape(20640,8)

每一行依次对应8个特征值。如果 as_frame 是真的, data 是一个熊猫物体。

目标麻木的形状阵列(20640,)

每个值对应于平均房屋价值,单位为100,000。如果 as_frame 是真的, target 是一个熊猫物体。

feature_names长度8的列表

数据集中使用的有序要素名称数组。

DESCRstr

加州住房数据集的描述。

Pandas DataFrame

仅在当 as_frame=True .数据框架 datatarget .

Added in version 0.23.

(data, target) :tuple if return_X_y 是真tuple if return_X_y is True

由两个ndray组成的二元组。第一个包含形状的2D数组(n_samples,n_features),每一行代表一个样本,每一列代表特征。包含目标样本的形状(n_samples,)的第二个nd数组。

Added in version 0.20.

注意到

该数据集由20,640个样本和9个特征组成。

示例

>>> from sklearn.datasets import fetch_california_housing
>>> housing = fetch_california_housing()
>>> print(housing.data.shape, housing.target.shape)
(20640, 8) (20640,)
>>> print(housing.feature_names[0:6])
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']