fetch_20newsgroups#
- sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False, n_retries=3, delay=1.0)[源代码]#
从20个新闻组数据集加载文件名和数据(分类)。
如有必要,请下载。
类
20
样本总数
18846
维度
1
特征
文本
阅读更多的 User Guide .
- 参数:
- data_home字符串或类似路径,默认值=无
为数据集指定下载和缓存文件夹。如果无,则所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
- subset' train ',',',默认=' train '
选择要加载的数据集:'train'用于训练集,'test'用于测试集,'all'用于两者,并具有随机排序。
- categories类数组,dtype=str,默认值=None
如果为“无”(默认值),则加载所有类别。如果不是“无”,则列出要加载的类别名称(忽略其他类别)。
- shuffle布尔,默认=True
是否对数据进行洗牌:对于假设样本独立且同分布(i.i.d.)的模型来说可能很重要,例如随机梯度下降。
- random_stateint、RandomState实例或无,默认=42
确定数据集洗牌的随机数生成。传递int以获得跨多个函数调用的可重复输出。看到 Glossary .
- removetuple,default=()
可以包含(“heads”、“footers”、“quotes”)的任何子集。其中每一种都是将被检测到并从新闻组帖子中删除的文本,以防止分类器过度匹配元数据。
“heads”删除新闻组标题,“footers”删除帖子结尾看起来像签名的块,“quotes”删除似乎引用另一个帖子的行。
“标题”遵循确切的标准;其他过滤器并不总是正确的。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- return_X_y布尔,默认=假
如果为True,则返回
(data.data, data.target)
而不是Bunch对象。Added in version 0.22.
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- bunch :
Bunch
群 类似字典的对象,具有以下属性。
- 数据形状列表(n_samples,)
要学习的数据列表。
- 目标:形状的nd数组(n_samples,)
目标标签。
- 文件名:形状列表(n_samples,)
数据位置的路径。
- DESRC:字符串
数据集的完整描述。
- Target_names:形状列表(n_classes,)
目标类的名称。
- (data, target) :tuple if
return_X_y=True
tuple ifreturn_X_y=True
两个ndarray的二元组。第一个包含2D形状数组(n_samples,n_classes),每一行代表一个样本,每一列代表特征。第二个形状数组(n_samples,)包含目标样本。
Added in version 0.22.
- bunch :
示例
>>> from sklearn.datasets import fetch_20newsgroups >>> cats = ['alt.atheism', 'sci.space'] >>> newsgroups_train = fetch_20newsgroups(subset='train', categories=cats) >>> list(newsgroups_train.target_names) ['alt.atheism', 'sci.space'] >>> newsgroups_train.filenames.shape (1073,) >>> newsgroups_train.target.shape (1073,) >>> newsgroups_train.target[:10] array([0, 1, 1, 1, 0, 1, 1, 0, 0, 0])