fetch_rcv1#
- sklearn.datasets.fetch_rcv1(*, data_home=None, subset='all', download_if_missing=True, random_state=None, shuffle=False, return_X_y=False, n_retries=3, delay=1.0)[源代码]#
加载RCV 1多标签数据集(分类)。
如有必要,请下载。
版本:RCV 1-v2、载体、全套、主题多标签。
类
103
样本总数
804414
维度
47236
特征
真实的,在0和1之间
阅读更多的 User Guide .
Added in version 0.17.
- 参数:
- data_home字符串或类似路径,默认值=无
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
- subset' train ',',',默认=' all '
选择要加载的数据集:“训练”用于训练集(23149个样本),“测试”用于测试集(781265个样本),“全部”用于两者,如果洗牌为假,则先训练样本。这遵循了LIRL 2004官方的时间顺序划分。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- random_stateint,RandomState实例或无,默认=无
确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .
- shuffle布尔,默认=假
是否洗牌数据集。
- return_X_y布尔,默认=假
如果为True,则返回
(dataset.data, dataset.target)
而不是Bunch对象。有关的更多信息,请参阅下文dataset.data
和dataset.target
object.Added in version 0.20.
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- dataset :
Bunch
群 类似字典的对象。只有在以下情况下才返回
return_X_y
是假的。dataset
具有以下属性:- 数据形状稀疏矩阵(804414,47236),dype = np.float64
数组有0.16%的非零值。将采用CSR格式。
- 目标形状稀疏矩阵(804414,103),dype =np.uint8
每个样本在其类别中的值为1,在其他类别中的值为0。该数组有3.15%的非零值。将采用CSR格式。
- sample_idndarray的形状(804414,),dtype=np.uint32,
每个样品的标识号,如在数据库. data中所述。
- target_namesnd数组形状(103,),dype =对象
每个目标的名称(RCV 1主题),按照Deliveret.target中的顺序。
- DESCRstr
RCV 1数据集的描述。
- (data, target)元组
由以下组成的多元组
dataset.data
和dataset.target
,如上所述。只有在以下情况下才返回return_X_y
是真的Added in version 0.20.
- dataset :
示例
>>> from sklearn.datasets import fetch_rcv1 >>> rcv1 = fetch_rcv1() >>> rcv1.data.shape (804414, 47236) >>> rcv1.target.shape (804414, 103)