fetch_rcv1#

sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[源代码]#

加载RCV 1多标签数据集(分类)。

如有必要,请下载。

版本:RCV 1-v2、载体、全套、主题多标签。

103

样本总数

804414

维度

47236

特征

真实的,在0和1之间

阅读更多的 User Guide .

Added in version 0.17.

参数:
data_home字符串或类似路径,默认值=无

为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。

subset' train ',',',默认=' all '

选择要加载的数据集:“训练”用于训练集(23149个样本),“测试”用于测试集(781265个样本),“全部”用于两者,如果洗牌为假,则先训练样本。这遵循了LIRL 2004官方的时间顺序划分。

download_if_missing布尔,默认=True

如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。

random_stateint,RandomState实例或无,默认=无

确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

shuffle布尔,默认=假

是否洗牌数据集。

return_X_y布尔,默认=假

如果为True,则返回 (dataset.data, dataset.target) 而不是Bunch对象。有关的更多信息,请参阅下文 dataset.datadataset.target object.

Added in version 0.20.

n_retriesint,默认=3

遇到HTTP错误时的再试次数。

Added in version 1.5.

delayfloat,默认=1.0

再试之间的秒数。

Added in version 1.5.

返回:
dataset : Bunch

类似字典的对象。只有在以下情况下才返回 return_X_y 是假的。 dataset 具有以下属性:

  • 数据形状稀疏矩阵(804414,47236),dype = np.float64

    数组有0.16%的非零值。将采用CSR格式。

  • 目标形状稀疏矩阵(804414,103),dype =np.uint8

    每个样本在其类别中的值为1,在其他类别中的值为0。该数组有3.15%的非零值。将采用CSR格式。

  • sample_idndarray的形状(804414,),dtype=np.uint32,

    每个样品的标识号,如在数据库. data中所述。

  • target_namesnd数组形状(103,),dype =对象

    每个目标的名称(RCV 1主题),按照Deliveret.target中的顺序。

  • DESCRstr

    RCV 1数据集的描述。

(data, target)元组

由以下组成的多元组 dataset.datadataset.target ,如上所述。只有在以下情况下才返回 return_X_y 是真的

Added in version 0.20.

示例

>>> from sklearn.datasets import fetch_rcv1
>>> rcv1 = fetch_rcv1()
>>> rcv1.data.shape
(804414, 47236)
>>> rcv1.target.shape
(804414, 103)