fetch_20newsgroups#

sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False, n_retries=3, delay=1.0)[源代码]#

从20个新闻组数据集加载文件名和数据（分类）。

如有必要，请下载。

类	20
样本总数	18846
维度	1
特征	文本

阅读更多的 User Guide .

参数:

data_home字符串或类似路径，默认值=无

为数据集指定下载和缓存文件夹。如果无，则所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。

subset' train '，'，'，默认=' train '

选择要加载的数据集：'train'用于训练集，'test'用于测试集，'all'用于两者，并具有随机排序。

categories类数组，dtype=str，默认值=None

如果为“无”（默认值），则加载所有类别。如果不是“无”，则列出要加载的类别名称（忽略其他类别）。

shuffle布尔，默认=True

是否对数据进行洗牌：对于假设样本独立且同分布（i.i.d.）的模型来说可能很重要，例如随机梯度下降。

random_stateint、RandomState实例或无，默认=42

确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

removetuple，default=（）

可以包含（“heads”、“footers”、“quotes”）的任何子集。其中每一种都是将被检测到并从新闻组帖子中删除的文本，以防止分类器过度匹配元数据。

“heads”删除新闻组标题，“footers”删除帖子结尾看起来像签名的块，“quotes”删除似乎引用另一个帖子的行。

“标题”遵循确切的标准;其他过滤器并不总是正确的。

download_if_missing布尔，默认=True

如果为假，如果数据在本地不可用，则引发OSEross，而不是尝试从源网站下载数据。

return_X_y布尔，默认=假

如果为True，则返回 (data.data, data.target) 而不是Bunch对象。

Added in version 0.22.

n_retriesint，默认=3

遇到HTTP错误时的再试次数。

Added in version 1.5.

delayfloat，默认=1.0

再试之间的秒数。

Added in version 1.5.

返回:

bunch : Bunch群

类似字典的对象，具有以下属性。

数据形状列表（n_samples，）: 要学习的数据列表。
目标：形状的nd数组（n_samples，）: 目标标签。
文件名：形状列表（n_samples，）: 数据位置的路径。
DESRC：字符串: 数据集的完整描述。
Target_names：形状列表（n_classes，）: 目标类的名称。

(data, target) ：tuple if return_X_y=Truetuple if return_X_y=True

两个ndarray的二元组。第一个包含2D形状数组（n_samples，n_classes），每一行代表一个样本，每一列代表特征。第二个形状数组（n_samples，）包含目标样本。

Added in version 0.22.

示例

>>> from sklearn.datasets import fetch_20newsgroups
>>> cats = ['alt.atheism', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', categories=cats)
>>> list(newsgroups_train.target_names)
['alt.atheism', 'sci.space']
>>> newsgroups_train.filenames.shape
(1073,)
>>> newsgroups_train.target.shape
(1073,)
>>> newsgroups_train.target[:10]
array([0, 1, 1, 1, 0, 1, 1, 0, 0, 0])