fetch_lfw_pairs#

sklearn.datasets.fetch_lfw_pairs(*, subset='train', data_home=None, funneled=True, resize=0.5, color=False, slice_=(slice(70, 195, None), slice(78, 172, None)), download_if_missing=True, n_retries=3, delay=1.0)[源代码]#

加载Wild中的标签面孔（LFW）配对数据集（分类）。

如有必要，请下载。

类	2
样本总数	13233
维度	5828
特征	真实的，在0到255之间

在官方 README.txt 此任务被描述为“受限制”任务。由于我不确定是否正确实现“Unrestricted”变体，因此我暂时将其保留为不支持。

原始图像为250 x 250像素，但默认切片和大小参数将其减少到62 x 47。

阅读更多的 User Guide .

参数:

subset' train '，' test '，' 10_folds '}，默认=' train ': 选择要加载的数据集：“train”用于开发训练集，“Test”用于开发测试集，“10_folds”用于官方评估集，该评估集旨在与10重交叉验证一起使用。
data_home字符串或类似路径，默认值=无: 为数据集指定另一个下载和缓存文件夹。默认情况下，所有scikit-learn数据都存储在“~/scikit_learn_data”收件箱中。
funneled布尔，默认=True: 下载并使用数据集的漏斗变体。
resize浮点数，默认值=0.5: 用于调整每个面部图片的大小的比率。
color布尔，默认=假: 保留3个RB通道，而不是将它们平均为单个灰度通道。如果颜色为True，则数据的形状比颜色= False的形状多一个维度。
slice_切片的字节组，默认=（切片（70，195），切片（78，172））: 提供自定义的2D切片（高度、宽度）来提取jpeg文件的“有趣”部分，并避免使用背景的统计相关性。
download_if_missing布尔，默认=True: 如果为假，如果数据在本地不可用，则引发OSEross，而不是尝试从源网站下载数据。
n_retriesint，默认=3: 遇到HTTP错误时的再试次数。

Added in version 1.5.
delayfloat，默认=1.0: 再试之间的秒数。

Added in version 1.5.

返回:

data : Bunch群

类似字典的对象，具有以下属性。

数据：形状的nd数组（2200，5828）。形状取决于 subset .nd数组形状（2200，5828）。形状取决于: 每一行对应2张原始大小为62 x 47像素的凌乱面部图像。改变 slice_ , resize 或 subset 参数将改变输出的形状。
对：形状的nd数组（2200，2，62，47）。形状取决于 subsetnd数组形状（2200，2，62，47）。形状取决于: 每一行有2张面部图像，对应于包含5749人的数据集中的相同或不同人。改变 slice_ , resize 或 subset 参数将改变输出的形状。
target：numpy array of shape（2200，）.形状取决于 subset .麻木的形状数组（2200，）。形状取决于: 与每对图像关联的标签。两个标签值是不同的人或同一个人。
target_names麻木的形状数组（2，）: 解释目标数组的目标值。0对应“不同的人”，1对应“同一个人”。
DESCRstr: 野外标签面孔（LFW）数据集的描述。

示例

>>> from sklearn.datasets import fetch_lfw_pairs
>>> lfw_pairs_train = fetch_lfw_pairs(subset='train')
>>> list(lfw_pairs_train.target_names)
[np.str_('Different persons'), np.str_('Same person')]
>>> lfw_pairs_train.pairs.shape
(2200, 2, 62, 47)
>>> lfw_pairs_train.data.shape
(2200, 5828)
>>> lfw_pairs_train.target.shape
(2200,)