fetch_lfw_pairs#
- sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[源代码]#
加载Wild中的标签面孔(LFW)配对数据集(分类)。
如有必要,请下载。
类
2
样本总数
13233
维度
5828
特征
真实的,在0到255之间
在官方 README.txt 此任务被描述为“受限制”任务。 由于我不确定是否正确实现“Unrestricted”变体,因此我暂时将其保留为不支持。
原始图像为250 x 250像素,但默认切片和大小参数将其减少到62 x 47。
阅读更多的 User Guide .
- 参数:
- subset' train ',' test ',' 10_folds '},默认=' train '
选择要加载的数据集:“train”用于开发训练集,“Test”用于开发测试集,“10_folds”用于官方评估集,该评估集旨在与10重交叉验证一起使用。
- data_home字符串或类似路径,默认值=无
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
- funneled布尔,默认=True
下载并使用数据集的漏斗变体。
- resize浮点数,默认值=0.5
用于调整每个面部图片的大小的比率。
- color布尔,默认=假
保留3个RB通道,而不是将它们平均为单个灰度通道。如果颜色为True,则数据的形状比颜色= False的形状多一个维度。
- slice_切片的字节组,默认=(切片(70,195),切片(78,172))
提供自定义的2D切片(高度、宽度)来提取jpeg文件的“有趣”部分,并避免使用背景的统计相关性。
- download_if_missing布尔,默认=True
如果为假,如果数据在本地不可用,则引发OSEross,而不是尝试从源网站下载数据。
- n_retriesint,默认=3
遇到HTTP错误时的再试次数。
Added in version 1.5.
- delayfloat,默认=1.0
再试之间的秒数。
Added in version 1.5.
- 返回:
- data :
Bunch
群 类似字典的对象,具有以下属性。
- 数据:形状的nd数组(2200,5828)。形状取决于
subset
.nd数组形状(2200,5828)。形状取决于 每一行对应2张原始大小为62 x 47像素的凌乱面部图像。改变
slice_
,resize
或subset
参数将改变输出的形状。- 对:形状的nd数组(2200,2,62,47)。形状取决于
subset
nd数组形状(2200,2,62,47)。形状取决于 每一行有2张面部图像,对应于包含5749人的数据集中的相同或不同人。改变
slice_
,resize
或subset
参数将改变输出的形状。- target:numpy array of shape(2200,).形状取决于
subset
.麻木的形状数组(2200,)。形状取决于 与每对图像关联的标签。两个标签值是不同的人或同一个人。
- target_names麻木的形状数组(2,)
解释目标数组的目标值。0对应“不同的人”,1对应“同一个人”。
- DESCRstr
野外标签面孔(LFW)数据集的描述。
- 数据:形状的nd数组(2200,5828)。形状取决于
- data :
示例
>>> from sklearn.datasets import fetch_lfw_pairs >>> lfw_pairs_train = fetch_lfw_pairs(subset='train') >>> list(lfw_pairs_train.target_names) [np.str_('Different persons'), np.str_('Same person')] >>> lfw_pairs_train.pairs.shape (2200, 2, 62, 47) >>> lfw_pairs_train.data.shape (2200, 5828) >>> lfw_pairs_train.target.shape (2200,)