fetch_20newsgroups_vectorized#

sklearn.datasets.fetch_20newsgroups_vectorized(*, subset='train', remove=(), data_home=None, download_if_missing=True, return_X_y=False, normalize=True, as_frame=False, n_retries=3, delay=1.0)[源代码]#

加载并对20个新闻组数据集进行垂直化（分类）。

如有必要，请下载。

这是一个方便功能;转换是使用默认设置完成的 CountVectorizer .对于更高级的使用（停止词过滤、n元提取等），将fetch_20新闻组与自定义结合起来 CountVectorizer , HashingVectorizer , TfidfTransformer 或 TfidfVectorizer .

使用以下方式对所得计数进行标准化 sklearn.preprocessing.normalize 除非normalize设置为False。

类	20
样本总数	18846
维度	130107
特征	房

阅读更多的 User Guide .

参数:

subset' train '，'，'，默认=' train '

选择要加载的数据集：'train'用于训练集，'test'用于测试集，'all'用于两者，并具有随机排序。

removetuple，default=（）

可以包含（“heads”、“footers”、“quotes”）的任何子集。其中每一种都是将被检测到并从新闻组帖子中删除的文本，以防止分类器过度匹配元数据。

“heads”删除新闻组标题，“footers”删除帖子结尾看起来像签名的块，“quotes”删除似乎引用另一个帖子的行。

data_home字符串或类似路径，默认值=无

为数据集指定下载和缓存文件夹。如果无，则所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。

download_if_missing布尔，默认=True

如果为假，如果数据在本地不可用，则引发OSEross，而不是尝试从源网站下载数据。

return_X_y布尔，默认=假

如果为True，则返回 (data.data, data.target) 而不是Bunch对象。

Added in version 0.20.

normalize布尔，默认=True

如果为True，则使用将每个文档的特征载体规格化为单位规范 sklearn.preprocessing.normalize .

Added in version 0.22.

as_frame布尔，默认=假

如果为True，则数据是pandas DataFrame，包括具有适当数据类型（数字、字符串或类别）的列。目标是pandas DataFrame或Series，具体取决于 target_columns .

Added in version 0.24.

n_retriesint，默认=3

遇到HTTP错误时的再试次数。

Added in version 1.5.

delayfloat，默认=1.0

再试之间的秒数。

Added in version 1.5.

返回:

bunch : Bunch群

类似字典的对象，具有以下属性。

数据：形状（n_samples，n_features）的{稀疏矩阵，n_features: 输入数据矩阵。如果 as_frame 是 True , data 是一个具有稀疏列的pandas DataFrame。
目标：{ndray，series}形状（n_samples，）: 目标标签。如果 as_frame 是 True , target 是熊猫系列。
Target_names：形状列表（n_classes，）: 目标类的名称。
DESRC：字符串: 数据集的完整描述。
框架：形状框架（n_samples，n_features + 1）: 仅在当 as_frame=True . Pandas数据框架 data 和 target .

Added in version 0.24.

(data, target) ：tuple if return_X_y 是真tuple if return_X_y is True

data 和 target 将采用中定义的格式 Bunch 上面的描述。

Added in version 0.20.

示例

>>> from sklearn.datasets import fetch_20newsgroups_vectorized
>>> newsgroups_vectorized = fetch_20newsgroups_vectorized(subset='test')
>>> newsgroups_vectorized.data.shape
(7532, 130107)
>>> newsgroups_vectorized.target.shape
(7532,)