fetch_california_housing#
- sklearn.datasets.fetch_california_housing(*, data_home=None, download_if_missing=True, return_X_y=False, as_frame=False, n_retries=3, delay=1.0)[源代码]#
加载加州住房数据集(回归)。
样本总数
20640
维度
8
特征
房
目标
真正的0.15 - 5。
阅读更多的 User Guide .
- 参数:
- data_home字符串或类似路径,默认值=无
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- return_X_y布尔,默认=假
如果为True,则返回
(data.data, data.target)
而不是Bunch对象。Added in version 0.20.
- as_frame布尔,默认=假
如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字、字符串或类别)的列。目标是pandas DataFrame或Series,具体取决于目标_列的数量。
Added in version 0.23.
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- dataset :
Bunch
群 类似字典的对象,具有以下属性。
- 数据ndray,shape(20640,8)
每一行依次对应8个特征值。如果
as_frame
是真的,data
是一个熊猫物体。- 目标麻木的形状阵列(20640,)
每个值对应于平均房屋价值,单位为100,000。如果
as_frame
是真的,target
是一个熊猫物体。- feature_names长度8的列表
数据集中使用的有序要素名称数组。
- DESCRstr
加州住房数据集的描述。
- 帧Pandas DataFrame
仅在当
as_frame=True
.数据框架data
和target
.Added in version 0.23.
- (data, target) :tuple if
return_X_y
是真tuple ifreturn_X_y
is True 由两个ndray组成的二元组。第一个包含形状的2D数组(n_samples,n_features),每一行代表一个样本,每一列代表特征。包含目标样本的形状(n_samples,)的第二个nd数组。
Added in version 0.20.
- dataset :
注意到
该数据集由20,640个样本和9个特征组成。
示例
>>> from sklearn.datasets import fetch_california_housing >>> housing = fetch_california_housing() >>> print(housing.data.shape, housing.target.shape) (20640, 8) (20640,) >>> print(housing.feature_names[0:6]) ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup']