fetch_20newsgroups_vectorized#
- sklearn.datasets.fetch_20newsgroups_vectorized(*, subset='train', remove=(), data_home=None, download_if_missing=True, return_X_y=False, normalize=True, as_frame=False, n_retries=3, delay=1.0)[源代码]#
加载并对20个新闻组数据集进行垂直化(分类)。
如有必要,请下载。
这是一个方便功能;转换是使用默认设置完成的
CountVectorizer
.对于更高级的使用(停止词过滤、n元提取等),将fetch_20新闻组与自定义结合起来CountVectorizer
,HashingVectorizer
,TfidfTransformer
或TfidfVectorizer
.使用以下方式对所得计数进行标准化
sklearn.preprocessing.normalize
除非normalize设置为False。类
20
样本总数
18846
维度
130107
特征
房
阅读更多的 User Guide .
- 参数:
- subset' train ',',',默认=' train '
选择要加载的数据集:'train'用于训练集,'test'用于测试集,'all'用于两者,并具有随机排序。
- removetuple,default=()
可以包含(“heads”、“footers”、“quotes”)的任何子集。其中每一种都是将被检测到并从新闻组帖子中删除的文本,以防止分类器过度匹配元数据。
“heads”删除新闻组标题,“footers”删除帖子结尾看起来像签名的块,“quotes”删除似乎引用另一个帖子的行。
- data_home字符串或类似路径,默认值=无
为数据集指定下载和缓存文件夹。如果无,则所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- return_X_y布尔,默认=假
如果为True,则返回
(data.data, data.target)
而不是Bunch对象。Added in version 0.20.
- normalize布尔,默认=True
如果为True,则使用将每个文档的特征载体规格化为单位规范
sklearn.preprocessing.normalize
.Added in version 0.22.
- as_frame布尔,默认=假
如果为True,则数据是pandas DataFrame,包括具有适当数据类型(数字、字符串或类别)的列。目标是pandas DataFrame或Series,具体取决于
target_columns
.Added in version 0.24.
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- bunch :
Bunch
群 类似字典的对象,具有以下属性。
- 数据:形状(n_samples,n_features)的{稀疏矩阵,n_features
输入数据矩阵。如果
as_frame
是True
,data
是一个具有稀疏列的pandas DataFrame。- 目标:{ndray,series}形状(n_samples,)
目标标签。如果
as_frame
是True
,target
是熊猫系列。- Target_names:形状列表(n_classes,)
目标类的名称。
- DESRC:字符串
数据集的完整描述。
- 框架:形状框架(n_samples,n_features + 1)
仅在当
as_frame=True
. Pandas数据框架data
和target
.Added in version 0.24.
- (data, target) :tuple if
return_X_y
是真tuple ifreturn_X_y
is True data
和target
将采用中定义的格式Bunch
上面的描述。Added in version 0.20.
- bunch :
示例
>>> from sklearn.datasets import fetch_20newsgroups_vectorized >>> newsgroups_vectorized = fetch_20newsgroups_vectorized(subset='test') >>> newsgroups_vectorized.data.shape (7532, 130107) >>> newsgroups_vectorized.target.shape (7532,)