ClassifierChain#

class sklearn.multioutput.ClassifierChain(base_estimator, *, order=None, cv=None, chain_method='predict', random_state=None, verbose=False)[源代码]#

一个多标签模型,将二进制分类器排列成一个链。

每个模型使用为模型提供的所有可用功能加上链中较早的模型的预测,按照链指定的顺序进行预测。

有关如何使用的示例 ClassifierChain 并从中受益,见 ClassifierChain on a yeast dataset example.

阅读更多的 User Guide .

Added in version 0.19.

参数:
base_estimator估计器

构建分类器链的基本估计器。

order形状(n_outputs,)或“随机”的类似数组,默认=无

如果 None ,顺序将由标签矩阵Y中列的顺序确定。::

order = [0, 1, 2, ..., Y.shape[1] - 1]

链的顺序可以通过提供一个整表来显式设置。例如,对于长度为5的链。::

order = [1, 3, 2, 4, 0]

意味着链中的第一个模型将对Y矩阵中的第1列进行预测,第二个模型将对第3列进行预测,等等。

如果订单是 random 将使用随机顺序。

cvint,交叉验证生成器或可迭代对象,默认=无

确定是否对链中先前估计量的结果使用交叉验证的预测或真实标签。简历的可能输入包括:

  • 没有,在安装时使用真实的标签,

  • integer,指定(分层)KFold中的折叠数,

  • CV splitter ,

  • 可迭代产出(训练、测试)分裂为索引数组。

chain_method'预测_proba ','预测_log_proba ', ' decision_function '}或此类字符串的列表,默认='预测'

链中的估计器将使用的预测方法,以获取链中先前估计器的“预测”特征。

  • 如果 str ,方法名称;

  • 如果列出 str ,按首选项顺序提供方法名称。使用的方法对应于列表中由 base_estimator .

Added in version 1.5.

random_stateint,RandomState实例或无,可选(默认=无)

如果 order='random' ,确定连锁订单的随机数生成。此外,它还控制每个给定的随机种子 base_estimator 在每次链接迭代时。因此,只有在以下情况下才使用 base_estimator 公开一个 random_state .传递int以获得跨多个函数调用的可重复输出。看到 Glossary .

verbose布尔,默认=假

如果为True,则在每个模型完成时输出链进度。

Added in version 1.2.

属性:
classes_列表

长度数组列表 len(estimators_) 包含链中每个估计器的类标签。

estimators_列表

base_estimator的克隆列表。

order_列表

分类器链中标签的顺序。

chain_method_str

链中估计器用于预测特征的预测方法。

n_features_in_int

期间看到的功能数量 fit .仅定义基础 base_estimator 在合适的时候公开这样的属性。

Added in version 0.24.

feature_names_in_ :nd形状数组 (n_features_in_ ,)nd数组形状(

Names of features seen during fit. Defined only when X has feature names that are all strings.

Added in version 1.0.

参见

RegressorChain

Equivalent for regression.

MultiOutputClassifier

独立分类每个输出,而不是链接。

引用

Jesse Read、Bernhard Pfahringer、Geoff Holmes、Eibe Frank,“多标签分类的分类器链”,2009年。

示例

>>> from sklearn.datasets import make_multilabel_classification
>>> from sklearn.linear_model import LogisticRegression
>>> from sklearn.model_selection import train_test_split
>>> from sklearn.multioutput import ClassifierChain
>>> X, Y = make_multilabel_classification(
...    n_samples=12, n_classes=3, random_state=0
... )
>>> X_train, X_test, Y_train, Y_test = train_test_split(
...    X, Y, random_state=0
... )
>>> base_lr = LogisticRegression(solver='lbfgs', random_state=0)
>>> chain = ClassifierChain(base_lr, order='random', random_state=0)
>>> chain.fit(X_train, Y_train).predict(X_test)
array([[1., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.]])
>>> chain.predict_proba(X_test)
array([[0.8387..., 0.9431..., 0.4576...],
       [0.8878..., 0.3684..., 0.2640...],
       [0.0321..., 0.9935..., 0.0626...]])
decision_function(X)[源代码]#

评估链中模型的决策功能。

参数:
X形状类似阵列(n_samples,n_features)

输入数据。

返回:
Y_decision形状类似阵列(n_samples,n_classes)

返回链中每个模型的样本的决策函数。

fit(X, Y, **fit_params)[源代码]#

将模型匹配数据矩阵X和目标Y。

参数:
X形状(n_samples,n_features)的{类数组,稀疏矩阵}

输入数据。

Y形状类似阵列(n_samples,n_classes)

The target values.

**fit_params字符串->对象的字典

参数传递给 fit 每一步的方法。

仅在以下情况下可用 enable_metadata_routing=True .看到 User Guide .

Added in version 1.3.

返回:
self对象

类实例。

get_metadata_routing()[源代码]#

获取此对象的元数据路由。

请检查 User Guide 关于路由机制如何工作。

Added in version 1.3.

返回:
routingMetadataRouter

A MetadataRouter 封装路由信息。

get_params(deep=True)[源代码]#

获取此估计器的参数。

参数:
deep布尔,默认=True

如果为True,将返回此估计量和包含的作为估计量的子对象的参数。

返回:
paramsdict

参数名称映射到其值。

predict(X)[源代码]#

使用ClassifierChain模型预测数据矩阵X。

参数:
X形状(n_samples,n_features)的{类数组,稀疏矩阵}

输入数据。

返回:
Y_pred形状类似阵列(n_samples,n_classes)

预测值。

predict_log_proba(X)[源代码]#

预测概率估计的对数。

参数:
X形状(n_samples,n_features)的{类数组,稀疏矩阵}

输入数据。

返回:
Y_log_prob形状类似阵列(n_samples,n_classes)

概率的预测对数。

predict_proba(X)[源代码]#

预测概率估计。

参数:
X形状(n_samples,n_features)的{类数组,稀疏矩阵}

输入数据。

返回:
Y_prob形状类似阵列(n_samples,n_classes)

预测的概率。

score(X, y, sample_weight=None)[源代码]#

返回给定测试数据和标签的平均准确度。

在多标签分类中,这是子集准确度,这是一个苛刻的指标,因为您需要为每个样本正确预测每个标签集。

参数:
X形状类似阵列(n_samples,n_features)

测试样本。

y形状的类似阵列(n_samples,)或(n_samples,n_outputs)

真正的标签 X .

sample_weight形状类似数组(n_samples,),默认=无

样本重量。

返回:
score浮子

平均准确度 self.predict(X) w.r.t. y .

set_params(**params)[源代码]#

设置此估计器的参数。

该方法适用于简单估计器以及嵌套对象(例如 Pipeline ).后者具有以下形式的参数 <component>__<parameter> 以便可以更新嵌套对象的每个组件。

参数:
**paramsdict

估计参数。

返回:
self估计器实例

估计实例。

set_score_request(*, sample_weight: bool | None | str = '$UNCHANGED$') ClassifierChain[源代码]#

请求元数据传递给 score

请注意,此方法仅适用于以下情况 enable_metadata_routing=True (见 sklearn.set_config ).请参阅 User Guide 关于路由机制如何工作。

The options for each parameter are:

  • True :元数据被请求并传递给 score 如果提供的话。如果未提供元数据,则会忽略请求。

  • False :未请求元数据,元估计器不会将其传递给 score .

  • None :不请求元数据,如果用户提供元估计器,则元估计器将引发错误。

  • str :元数据应通过此给定别名而不是原始名称传递给元估计器。

默认 (sklearn.utils.metadata_routing.UNCHANGED )保留现有请求。这允许您更改某些参数的请求,而不是其他参数。

Added in version 1.3.

备注

只有当该估计器用作元估计器的子估计器时,该方法才相关,例如在 Pipeline .否则就没有效果了。

参数:
sample_weight字符串、真、假或无, 默认=sklearn.utils. metalics_Routing.UNChanged

元数据路由 sample_weight 参数 score .

返回:
self对象

更新的对象。