fetch_20newsgroups_vectorized#

sklearn.datasets.fetch_20newsgroups_vectorized(*, subset='train', remove=(), data_home=None, download_if_missing=True, return_X_y=False, normalize=True, as_frame=False, n_retries=3, delay=1.0)[源代码]#

加载并对20个新闻组数据集进行垂直化(分类)。

如有必要,请下载。

这是一个方便功能;转换是使用默认设置完成的 CountVectorizer .对于更高级的使用(停止词过滤、n元提取等),将fetch_20新闻组与自定义结合起来 CountVectorizer , HashingVectorizer , TfidfTransformerTfidfVectorizer .

使用以下方式对所得计数进行标准化 sklearn.preprocessing.normalize 除非normalize设置为False。

20

样本总数

18846

维度

130107

特征

阅读更多的 User Guide .

参数:
subset' train ',',',默认=' train '

选择要加载的数据集:'train'用于训练集,'test'用于测试集,'all'用于两者,并具有随机排序。

removetuple,default=()

可以包含(“heads”、“footers”、“quotes”)的任何子集。其中每一种都是将被检测到并从新闻组帖子中删除的文本,以防止分类器过度匹配元数据。

“heads”删除新闻组标题,“footers”删除帖子结尾看起来像签名的块,“quotes”删除似乎引用另一个帖子的行。

data_home字符串或类似路径,默认值=无

为数据集指定下载和缓存文件夹。如果无,则所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。

download_if_missing布尔,默认=True

如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。

return_X_y布尔,默认=假

如果为True,则返回 (data.data, data.target) 而不是Bunch对象。

Added in version 0.20.

normalize布尔,默认=True

如果为True,则使用将每个文档的特征载体规格化为单位规范 sklearn.preprocessing.normalize .

Added in version 0.22.

as_frame布尔,默认=假

如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字、字符串或类别)的列。目标是pandas DataFrame或Series,具体取决于 target_columns .

Added in version 0.24.

n_retriesint,默认=3

遇到HTTP错误时的再试次数。

Added in version 1.5.

delayfloat,默认=1.0

再试之间的秒数。

Added in version 1.5.

返回:
bunch : Bunch

类似字典的对象,具有以下属性。

数据:形状(n_samples,n_features)的{稀疏矩阵,n_features

输入数据矩阵。如果 as_frameTrue , data 是一个具有稀疏列的pandas DataFrame。

目标:{ndray,series}形状(n_samples,)

目标标签。如果 as_frameTrue , target 是熊猫系列。

Target_names:形状列表(n_classes,)

目标类的名称。

DESRC:字符串

数据集的完整描述。

框架:形状框架(n_samples,n_features + 1)

仅在当 as_frame=True . Pandas数据框架 datatarget .

Added in version 0.24.

(data, target) :tuple if return_X_y 是真tuple if return_X_y is True

datatarget 将采用中定义的格式 Bunch 上面的描述。

Added in version 0.20.

示例

>>> from sklearn.datasets import fetch_20newsgroups_vectorized
>>> newsgroups_vectorized = fetch_20newsgroups_vectorized(subset='test')
>>> newsgroups_vectorized.data.shape
(7532, 130107)
>>> newsgroups_vectorized.target.shape
(7532,)