用户指南# 1. 监督学习 1.1. 线性模型 1.1.1. 普通最小二乘 1.1.2. 岭回归与分类 1.1.3. Lasso 1.1.4. 多任务套索 1.1.5. Elastic-Net 1.1.6. 多任务Elastic-Net 1.1.7. 最小角回归 1.1.8. LARS套索 1.1.9. 垂直匹配追求(OMP) 1.1.10. 贝叶斯回归 1.1.11. Logistic回归 1.1.12. 广义线性模型 1.1.13. 随机梯度下降-新加坡元 1.1.14. 感知器 1.1.15. 被动攻击算法 1.1.16. 稳健性回归:异常值和建模错误 1.1.17. 分位数回归 1.1.18. 多元回归:用基函数扩展线性模型 1.2. 线性和二次鉴别分析 1.2.1. 使用线性鉴别分析降低模糊性 1.2.2. LDA和QDA分类器的数学公式 1.2.3. LDA降维的数学公式 1.2.4. 收缩和协方差估计 1.2.5. 估计算法 1.3. 核岭回归 1.4. 支持向量机 1.4.1. 分类 1.4.2. 回归 1.4.3. 密度估计、新奇检测 1.4.4. 复杂性 1.4.5. 实际使用技巧 1.4.6. 核函数 1.4.7. 数学公式 1.4.8. 实现细节 1.5. 随机梯度下降 1.5.1. 分类 1.5.2. 回归 1.5.3. 在线一类支持者 1.5.4. 稀疏数据的随机梯度下降 1.5.5. 复杂性 1.5.6. 停止标准 1.5.7. 实际使用技巧 1.5.8. 数学公式 1.5.9. 实现细节 1.6. 最近邻居 1.6.1. 无人监督的最近邻居 1.6.2. 最近邻分类 1.6.3. 最近邻居回归 1.6.4. 最近邻居算法 1.6.5. 最近的重心分类器 1.6.6. 最近邻Transformer 1.6.7. 邻里要素分析 1.7. 高斯过程 1.7.1. 高斯过程回归(GPT) 1.7.2. 高斯过程分类(GSK) 1.7.3. 凝胶渗透控制示例 1.7.4. 高斯过程的核 1.8. 交叉分解 1.8.1. PLSCanonical 1.8.2. PLSSVD 1.8.3. PLSRegression 1.8.4. 典型相关分析 1.9. 朴素贝叶斯 1.9.1. 高斯天真的Bayes 1.9.2. 多项式朴素贝叶斯 1.9.3. 补充天真的Bayes 1.9.4. 伯努里天真的贝耶斯 1.9.5. 绝对天真的Bayes 1.9.6. 核心外天真的Bayes模型匹配 1.10. 决策树 1.10.1. 分类 1.10.2. 回归 1.10.3. 多输出问题 1.10.4. 复杂性 1.10.5. 实际使用技巧 1.10.6. 树算法:ID 3、C4.5、C5.0和CART 1.10.7. 数学公式 1.10.8. 缺失的价值观支持 1.10.9. 最小成本复杂性修剪 1.11. 合奏:梯度提升、随机森林、装袋、投票、堆叠 1.11.1. 受影响的树木 1.11.2. 随机森林和其他随机树木群落 1.11.3. 装袋元估计器 1.11.4. 投票分类器 1.11.5. 投票回归者 1.11.6. 堆叠概括 1.11.7. AdaBoost 1.12. 多类和多输出算法 1.12.1. 多类分类 1.12.2. 多标签分类 1.12.3. 多类多输出分类 1.12.4. 多输出回归 1.13. 特征选择 1.13.1. 删除低方差的功能 1.13.2. 单变量特征选择 1.13.3. 递归特征消除 1.13.4. 使用SelectFromModel选择特征 1.13.5. 顺序特征选择 1.13.6. 作为管道一部分的要素选择 1.14. 半监督学习 1.14.1. 自我培训 1.14.2. 标签传播 1.15. 保序回归 1.16. 概率定标 1.16.1. 校准曲线 1.16.2. 校准分类器 1.16.3. 使用 1.17. 神经网络模型(监督) 1.17.1. 多层感知器 1.17.2. 分类 1.17.3. 回归 1.17.4. 正则化 1.17.5. 算法 1.17.6. 复杂性 1.17.7. 实际使用技巧 1.17.8. 使用warm_start提供更多控制 2. 无监督学习 2.1. 高斯混合模型 2.1.1. 高斯混合 2.1.2. 变分Bayesian高斯混合 2.2. 流形学习 2.2.1. 介绍 2.2.2. Isomap 2.2.3. 局部线性嵌入 2.2.4. 改进的局部线性嵌入 2.2.5. Hessian本征映射 2.2.6. 光谱嵌入 2.2.7. Local Tangent Space Alignment 2.2.8. 多维缩放(SCS) 2.2.9. t-分布随机邻居嵌入(t-SNE) 2.2.10. 实际使用技巧 2.3. 聚类 2.3.1. 集群方法概述 2.3.2. K-means 2.3.3. 仿射传播 2.3.4. 均值漂移 2.3.5. 谱聚类 2.3.6. 层次聚类 2.3.7. DBSCAN 2.3.8. HDBSCAN 2.3.9. OPTICS 2.3.10. BIRCH 2.3.11. 集群绩效评估 2.4. 双聚类 2.4.1. 光谱协同聚集 2.4.2. 光谱双集群 2.4.3. 双集群评估 2.5. 将信号分解为分量(矩阵分解问题) 2.5.1. 主成分分析(PCA) 2.5.2. 核心主成分分析(kPCA) 2.5.3. 截短奇异值分解和潜在语义分析 2.5.4. 字典学习 2.5.5. 因子分析 2.5.6. 独立成分分析(ICA) 2.5.7. 非负矩阵分解(NMF或NNMF) 2.5.8. 潜在狄利克雷分配(LDA) 2.6. 协方差估计 2.6.1. 经验协方差 2.6.2. 收缩协方差 2.6.3. 稀疏反协方差 2.6.4. 稳健协方差估计 2.7. 新颖性和异常值检测 2.7.1. 异常值检测方法概述 2.7.2. 新奇检测 2.7.3. 离群点检测 2.7.4. 利用本地异常值因子进行新颖性检测 2.8. 密度估计 2.8.1. 密度估计:柱状图 2.8.2. 核密度估计 2.9. 神经网络模型(无监督) 2.9.1. 受限玻尔兹曼机 3. 模型选择与评估 3.1. 交叉验证:评估估计器性能 3.1.1. 计算交叉验证的指标 3.1.2. 交叉验证迭代器 3.1.3. 关于洗牌的注释 3.1.4. 交叉验证和模型选择 3.1.5. 排列测试分数 3.2. 调整估计器的超参数 3.2.1. 详尽的网格搜索 3.2.2. 随机参数优化 3.2.3. 通过连续减半寻找最佳参数 3.2.4. 参数搜索技巧 3.2.5. 暴力参数搜索的替代方案 3.3. 调整类别预测的决策阈值 3.3.1. 后调整决策阈值 3.4. 预设和评分:量化预测的质量 3.4.1. 我应该使用哪个评分功能? 3.4.2. 评分API概述 3.4.3. 的 scoring 参数:定义模型评估规则 3.4.4. 分类度量 3.4.5. 多标签排名指标 3.4.6. 回归指标 3.4.7. 集群指标 3.4.8. 伪估计器 3.5. 验证曲线:绘制分数以评估模型 3.5.1. 验证曲线 3.5.2. 学习曲线 4. 元数据路由 4.1. 用法示例 4.1.1. 加权评分和匹配 4.1.2. 加权评分和非加权拟合 4.1.3. 未加权特征选择 4.1.4. 不同的评分和适合权重 4.2. API接口 4.3. 元数据路由支持状态 5. 检查 5.1. 部分依赖和个人条件期望图 5.1.1. 部分依赖图表 5.1.2. 个人条件期望(ICE)图 5.1.3. 数学定义 5.1.4. 计算方法 5.2. 排列特征重要性 5.2.1. 排列重要性算法概述 5.2.2. 与树木中基于杂质的重要性的关系 5.2.3. 强相关特征上的误导性价值观 6. 可视化 6.1. 可用的绘图实用程序 6.1.1. 显示对象 7. 数据集转换 7.1. 管道和复合估计量 7.1.1. 管道:连锁估计器 7.1.2. 回归中转变目标 7.1.3. DeliverUnion:复合要素空间 7.1.4. 适用于异类数据的列转换器 7.1.5. 可视化复合估计器 7.2. 特征提取 7.2.1. 从文本加载功能 7.2.2. 特征哈希 7.2.3. 文本特征提取 7.2.4. 图像特征提取 7.3. 预处理数据 7.3.1. 标准化,或均值去除和方差缩放 7.3.2. 非线性变换 7.3.3. 正常化 7.3.4. 编码类别特征 7.3.5. 离散化 7.3.6. 插补缺失值 7.3.7. 生成多项特征 7.3.8. 定制变压器 7.4. 插补缺失值 7.4.1. 单变量与多元插补 7.4.2. 单变量特征插补 7.4.3. 多元特征插补 7.4.4. 最近邻居的归属 7.4.5. 保持特征数量不变 7.4.6. 标记估算值 7.4.7. 处理NaN值的估计器 7.5. 无监督降维 7.5.1. PCA:主成分分析 7.5.2. 随机投影 7.5.3. 特征聚集 7.6. 随机投影 7.6.1. 约翰逊-林登施特劳斯引理 7.6.2. 高斯随机投影 7.6.3. 稀疏随机投影 7.6.4. 逆变换 7.7. 核近似 7.7.1. 核逼近的Nystroem方法 7.7.2. 放射基函数核 7.7.3. 加性卡平方核 7.7.4. 斜方核 7.7.5. 通过张量草图进行多项核逼近 7.7.6. 数学细节 7.8. 成对指标、亲和力和核心 7.8.1. Cosine similarity 7.8.2. 线性核 7.8.3. 多项式核 7.8.4. Sigmoid核 7.8.5. RBF核 7.8.6. 拉普拉斯核 7.8.7. 卡方核 7.9. 转换预测目标 (y ) 7.9.1. 标签二进制化 7.9.2. 标签编码 8. 数据集加载实用程序 8.1. 玩具数据集 8.1.1. 虹膜植物数据集 8.1.2. 糖尿病数据集 8.1.3. 手写数字数据集的光学识别 8.1.4. 林纳鲁德数据集 8.1.5. 葡萄酒识别数据集 8.1.6. 威斯康星州乳腺癌(诊断)数据集 8.2. 真实世界的数据集 8.2.1. 奥利韦蒂面临数据集 8.2.2. 20个新闻组文本数据集 8.2.3. Wild人脸识别数据集中的Labeled Faces 8.2.4. 森林覆盖类型 8.2.5. RCV 1数据集 8.2.6. Kddcup 99数据集 8.2.7. 加州住房数据集 8.2.8. 物种分布数据集 8.3. 生成的数据集 8.3.1. 用于分类和集群的生成器 8.3.2. 回归生成器 8.3.3. 用于多种学习的生成器 8.3.4. Generators for decomposition 8.4. 加载其他数据集 8.4.1. 样本图像 8.4.2. svmlight / libsvm格式的数据集 8.4.3. 从openml.org存储库下载数据集 8.4.4. 从外部数据集加载 9. 使用scikit-learn进行计算 9.1. 计算扩展策略:更大的数据 9.1.1. 使用核心外学习使用实例进行扩展 9.2. 计算性能 9.2.1. 预测延迟 9.2.2. 预测产出 9.2.3. 提示和技巧 9.3. 并行主义、资源管理和配置 9.3.1. 并行性 9.3.2. 配置开关 10. 模型持久性 10.1. 工作流程概述 10.1.1. 训练并坚持模型 10.2. ONNX 10.3. skops.io 10.4. pickle , joblib ,而且 cloudpickle 10.5. 安全性和可维护性限制 10.5.1. 在生产中复制培训环境 10.5.2. 服务模型文物 10.6. 总结要点 11. 常见陷阱和建议做法 11.1. 预处理不一致 11.2. 数据泄露 11.2.1. 如何避免数据泄露 11.2.2. 预处理期间数据泄露 11.3. 控制随机性 11.3.1. 使用 None 或 RandomState 实例,并反复调用 fit 和 split 11.3.2. 常见陷阱和微妙之处 11.3.3. 一般性建议 12. 调度 12.1. 数组API支持(实验性) 12.1.1. 示例使用 12.1.2. Support for Array API-compatible inputs 12.1.3. 常见估计器检查 13. 选择正确的估计器 14. 外部资源、视频和讲座 14.1. scikit-learn MOOC 14.2. 视频 14.3. 科学Python新手? 14.4. 外部学费