旧版本#

版本0.12.1#

October 8, 2012

0.12.1版本是一个错误修复版本，没有额外功能，而是一组错误修复

Changelog#

通过提高谱嵌入的数值稳定性 Gael Varoquaux
Windows 64位下的DocTest由 Gael Varoquaux
文档修复弹性网络 Andreas Müller 和 Alexandre Gramfort
通过以下方式处理fortra排序NumPy数组的正确行为 Gael Varoquaux
通过以下方式使GridSearchCV处理非CSR稀疏矩阵 Lars Buitinck
修复MDS中的并行计算， Gael Varoquaux
通过修复计数向量器中的Unicode支持 Andreas Müller
通过X.Shape =（3，1）修复MinCovDet破裂 Virgile Fritsch
通过以下方式修复Singapore对象的克隆 Peter Prettenhofer
稳定GMM， Virgile Fritsch

人#

0.12版本#

September 4, 2012

Changelog#

各种速度改进 decision trees 模块，通过 Gilles Louppe .
GradientBoostingRegressor 和 GradientBoostingClassifier 现在支持通过 max_features 论点，由 Peter Prettenhofer .
添加了Huber和分位数损失函数， GradientBoostingRegressor ，由 Peter Prettenhofer .
Decision trees 和 forests of randomized trees 现在支持多输出分类和回归问题，通过 Gilles Louppe .
添加 LabelEncoder ，一个简单的实用类，用于规范化标签或转换非数字标签，通过 Mathieu Blondel .
添加了对epsilon不敏感的损失和通过修改后的胡伯损失进行概率预测的能力随机梯度下降，由 Mathieu Blondel .
添加多维缩放（SCS）作者：Nelle Varoquaux。
SVMlight文件格式加载器现在检测压缩的（gZip/bzip 2）文件并通过以下方式动态解压缩它们 Lars Buitinck .
SVMlight文件格式序列化器现在通过以下方式保留双精度浮点值 Olivier Grisel .
添加了所有估计量的通用测试框架， Andreas Müller .
不接受稀疏输入的估计器的可理解错误消息 Gael Varoquaux
通过以下方法提高分层聚类的速度 Gael Varoquaux .特别是建造这棵树现在支持提前停止。当集群数量与样本数量相比不小时，这很有用。
添加MultiTaskLasso和MultiTaskElasticNet用于关节特征选择，通过 Alexandre Gramfort .
添加 metrics.auc_score and metrics.average_precision_score convenience functions by Andreas Müller .
改进的稀疏矩阵支持特征选择模块通过 Andreas Müller .
新单词边界感知字符n元语法分析器文本特征提取模块通过 @kernc .
修复了光谱集群中导致单点集群的错误 Andreas Müller .
在 CountVectorizer ，添加了一个选项来忽略不常见的单词， min_df 通过 Andreas Müller .
通过以下方式在某些线性模型（ElasticNet、Lasso和ThomonalMatchingPursuit）中添加对多个目标的支持 Vlad Niculae 和 Alexandre Gramfort .
中的修复程序 decomposition.ProbabilisticPCA 评分功能由魏力完成。
修复了特征重要性计算受影响的树木 .

API变更摘要#

老 scikits.learn 包已消失;所有代码都应从导入 sklearn 相反，它在0.9中引入。
在 metrics.roc_curve ， thresholds 数组的返回顺序现在颠倒了，以便与返回的 fpr 和 tpr .
在 hmm 物体，比如 hmm.GaussianHMM , hmm.MultinomialHMM 等，在初始化对象时，必须将所有参数传递给对象， fit .现在 fit 将仅接受数据作为输入参数。
对于所有的支持者类， gamma 已修复。以前，默认伽玛值仅在第一次计算 fit 被调用并存储。现在每次调用时都会重新计算 fit .
所有 Base 类现在是抽象Meta类，因此它们无法被实例化。
cluster.ward_tree 现在还返回父数组。这对于提前停止是必要的，在这种情况下树尚未完全建成。
在 CountVectorizer 的参数 min_n 和 max_n 已加入参数 n_gram_range 以实现同时进行网格搜索。
在 CountVectorizer ，默认情况下，仅出现在一个文档中的单词现在会被忽略。要重现之前的行为，请设置 min_df=1 .
修复API不一致性： linear_model.SGDClassifier.predict_proba 现在当适合两个类时返回2D数组。
修复API不一致性： discriminant_analysis.QuadraticDiscriminantAnalysis.decision_function 和 discriminant_analysis.LinearDiscriminantAnalysis.decision_function 现在，当适合两个类时，返回1d数组。
用于装配的阿尔法网格 LassoCV 和 ElasticNetCV 现在存储在属性中 alphas_ 而不是重写init参数 alphas .
当通过交叉验证估计Alpha时，线性模型将估计值存储在 alpha_ 属性而不仅仅是 alpha 或 best_alpha .
GradientBoostingClassifier 现在支持 staged_predict_proba ，而且 staged_predict .
svm.sparse.SVC 和其他稀疏的支持者类现在已被弃用。中的所有类支持向量机模块现在根据输入自动选择稀疏或密集表示。
所有集群算法现在都解释阵列 X 给予 fit 特别是作为输入数据 SpectralClustering 和 AffinityPropagation 此前预期的亲和力矩阵。
对于将所需集群数量作为参数的集群算法，该参数现在被称为 n_clusters .

人#

267 Andreas Müller
94 Gilles Louppe
89 Gael Varoquaux
79 Peter Prettenhofer
60 Mathieu Blondel
57 Alexandre Gramfort
52 Vlad Niculae
45 Lars Buitinck
44内勒·瓦罗夸
37 Jaques Grobler
30亚历克西斯·米尼翁
30伊曼纽尔·拜耳
27 Olivier Grisel
16 Subhodeep Moitra
13扬尼克·施瓦茨
12 @kernc
11 Virgile Fritsch
9丹尼尔·达克沃斯
9 Fabian Pedregosa
9 Robert Layton
8约翰·贝尼迪克松
7马尔科·布尔切克
5 Nicolas Pinto
4亚历山大·亚伯拉罕
4 Jake Vanderplas
3 Brian Holt
3 Edouard Duchesnay
3弗洛里安·霍伊格
3飞行immidev
2弗朗索瓦·萨瓦德
2汉内斯·舒尔茨
2彼得·韦林德
2 Yaroslav Halchenko
2李伟
1亚历克斯·孔尼
1布兰登·A.白色
1比索尼耶·马蒂亚斯
1查尔斯-皮埃尔·阿斯托尔菲
1丹·奥惠金
1大卫·库纳波
1 Keith Goodman
1路德维希·施瓦茨
1奥利维尔·埃尔维尤
1塞尔吉奥·梅迪纳
1石桥渡
1蒂姆·谢尔曼-蔡斯
1 buguen

版本0.11#

May 7, 2012

Changelog#

亮点#

梯度增强回归树 (受影响的树木）进行分类和回归 Peter Prettenhofer 和 Scott White .
支持分类变量的简单的基于dict的特征加载器 (DictVectorizer ）由 Lars Buitinck .
添加马修斯相关系数 (metrics.matthews_corrcoef ）并添加了宏观和微观平均选项， precision_score , metrics.recall_score 和 f1_score 通过 Satrajit Ghosh .
袋外估计概括错误合奏：梯度提升、随机森林、装袋、投票、堆叠通过 Andreas Müller .
用于特征选择的随机稀疏线性模型，通过 Alexandre Gramfort 和 Gael Varoquaux
标签传播半监督学习，作者：Clay Woolam。 Note 半监督API仍在开发中，并且可能会发生变化。
在经典中添加了BIC/AIC型号选择高斯混合模型并通过以下方式统一API与scikit-learn的其余部分 Bertrand Thirion
添加 sklearn.cross_validation.StratifiedShuffleSplit ，这是 sklearn.cross_validation.ShuffleSplit 平衡分裂，作者：雅尼克·施瓦茨。
NearestCentroid 添加了分类器，以及 shrink_threshold 参数，它实现 shrunken centroid classification ，由 Robert Layton .

其他变化#

合并的密集和稀疏实现随机梯度下降顺序数据集的模块和公开的实用工具扩展类型 seq_dataset 和权重载体 weight_vector 通过 Peter Prettenhofer .
添加 partial_fit （支持在线/小批量学习）和warm_start 随机梯度下降模块通过 Mathieu Blondel .
密集和稀疏的实现支持向量机类和 LogisticRegression 合并者 Lars Buitinck .
回归量现在可以用作多类和多输出算法模块通过 Mathieu Blondel .
添加了n_jobs选项 metrics.pairwise_distances 和 metrics.pairwise.pairwise_kernels 对于并行计算，通过 Mathieu Blondel .
K-means 现在可以使用 n_jobs 论点 K-means 或 cluster.KMeans ，由 Robert Layton .
改进交叉验证：评估估计器性能和调整估计器的超参数文档并介绍了新的 cross_validation.train_test_split helper function by Olivier Grisel
SVC 成员 coef_ 和 intercept_ 更改标志以保持一致 decision_function ;对于 kernel==linear , coef_ 在一对一的情况下，由 Andreas Müller .
高效留一交叉验证岭回归的性能改进，特别是针对 n_samples > n_features 案件 RidgeCV 作者：鲁本·弗莱彻-科斯汀。
重构和简化文本特征提取 API并修复了导致可能为负IDF的错误，由 Olivier Grisel .
中的梁修剪选项 _BaseHMM 由于难以Cythonize，模块已被删除。如果您有兴趣贡献Cython版本，可以使用git历史记录中的python版本作为参考。
班最近邻居现在支持最近邻搜索的任意Minkowski度量。指标可以通过参数指定 p .

API变更摘要#

covariance.EllipticEnvelop 现在已被废弃。请使用 EllipticEnvelope 而不是.
NeighborsClassifier 和 NeighborsRegressor 都消失在模块中了最近邻居 .使用类 KNeighborsClassifier , RadiusNeighborsClassifier , KNeighborsRegressor 和/或 RadiusNeighborsRegressor 而不是.
中的稀疏类随机梯度下降模块现已废弃。
在 mixture.GMM , mixture.DPGMM 和 mixture.VBGMM ，参数必须在初始化对象时传递给对象，而不是通过 fit .现在 fit 将仅接受数据作为输入参数。
方法 rvs 和 decode 在 GMM 模块现已废弃。 sample 和 score 或 predict 应该改为使用。
属性 _scores 和 _pvalues 在单变量特征选择对象现在已被废弃。 scores_ 或 pvalues_ 应该改为使用。
在 LogisticRegression , LinearSVC , SVC 和 NuSVC ， class_weight 参数现在是初始化参数，而不是要适应的参数。这使得对该参数进行网格搜索成为可能。
LFW data 现在总是形状 (n_samples, n_features) 与Olivetti面孔数据集保持一致。使用 images 和 pairs 属性来访问自然图像形状。
在 LinearSVC ，的含义 multi_class 参数已更改。现在的选择是 'ovr' 和 'crammer_singer' ， 'ovr' 是默认的。这不会改变默认行为，但希望不会那么令人困惑。
类 feature_selection.text.Vectorizer 已废弃并被替换为 feature_selection.text.TfidfVectorizer .
用于文本特征提取的预处理器/分析器嵌套结构已被删除。所有这些功能现在都作为扁平构造函数参数直接传递给 feature_selection.text.TfidfVectorizer 和 feature_selection.text.CountVectorizer ，特别是现在使用以下参数：
analyzer 可以 'word' 或 'char' 切换默认分析方案，或使用特定的Python可调用（如前所述）。
tokenizer 和 preprocessor 已推出，以便仍然可以使用新的API自定义这些步骤。
input 显式控制如何解释传递给的序列 fit 和 predict ：文件名、文件对象或直接（字节或Unicode）字符串。
默认情况下，字符集解码是显式且严格的。
的 vocabulary ，无论是否安装现在都存储在 vocabulary_ 属性与项目约定一致。
类 feature_selection.text.TfidfVectorizer 现在直接源自 feature_selection.text.CountVectorizer 使网格搜索变得微不足道。
方法 rvs 在 _BaseHMM 模块现已废弃。 sample 应该改为使用。
中的梁修剪选项 _BaseHMM 由于难以被Cythonized，模块被删除。如果您感兴趣，可以通过git查看历史代码。
SVMlight格式加载器现在支持具有从零开始和从一开始的列索引的文件，因为两者都是“在野外”发生的。
课堂上的争论 ShuffleSplit 现在与 StratifiedShuffleSplit .论点 test_fraction 和 train_fraction 已废弃并更名为 test_size 和 train_size 并且可以接受两者 float 和 int .
课堂上的争论 Bootstrap 现在与 StratifiedShuffleSplit .论点 n_test 和 n_train 已废弃并更名为 test_size 和 train_size 并且可以接受两者 float 和 int .
论点 p 添加到课程中最近邻居为最近邻搜索指定任意Minkowski度量。

人#

282 Andreas Müller
239 Peter Prettenhofer
198 Gael Varoquaux
129 Olivier Grisel
114 Mathieu Blondel
103 Clay Woolam
96 Lars Buitinck
88 Jaques Grobler
82 Alexandre Gramfort
50 Bertrand Thirion
42 Robert Layton
28 Flyingimmidev
26 Jake Vanderplas
26石桥渡
21 Satrajit Ghosh
17 David Marek
17 Gilles Louppe
14 Vlad Niculae
11扬尼克·施瓦茨
10 Fabian Pedregosa
9福科斯汀
7尼克·威尔逊
5阿德里安·盖登
5 Nicolas Pinto
4 David Warde-Farley
5内勒·瓦罗夸
5 Emmanuelle Gouillart
3朱纳斯·西兰帕
3保罗·罗西
2查尔斯·麦卡锡
2 Roy Hyunjin韩
2斯科特·怀特
2 ibayer
1布兰登·怀特
1卡洛斯·谢德格
1克莱尔·雷维莱
1康拉德·李
1 Edouard Duchesnay
1 Jan Hendrik Metzen
1孟新凡
1 Rob Zinkov
一石桥
1乌迪·温斯伯格
1尤利西斯·弗里奇
1梦新繁
1雅罗斯拉夫·哈尔琴科
1 jansoe
1莱昂·帕拉福克斯

版本0.10#

January 11, 2012

Changelog#

Python 2.5 compatibility was dropped; the minimum Python version needed to use scikit-learn is now 2.6.
稀疏反协方差使用Lasso图进行估计，以及相关的交叉验证估计器，通过 Gael Varoquaux
新 Tree 模块通过 Brian Holt , Peter Prettenhofer , Satrajit Ghosh 和 Gilles Louppe .该模块包含完整的文档和示例。
通过以下方式修复RFE模块中的错误 Gilles Louppe （问题#378）。
修复了内存泄漏支持向量机模块通过 Brian Holt （问题#367）。
更快的测试 Fabian Pedregosa 等人
剪影系数集群分析评价指标添加为 silhouette_score 作者：罗伯特·雷顿。
修复了中的一个错误 K-means 在处理 n_init 参数：用于运行的聚类算法 n_init 次数，但保留了最后的溶液而不是最好的溶液 Olivier Grisel .
小重构随机梯度下降模块;整合了密集和稀疏预测方法;通过在匹配后将模型参数转换为fortran风格的数组来增强测试时间性能（仅限多类）。
调整后的相互信息指标添加为 adjusted_mutual_info_score 作者：罗伯特·雷顿。
来自libsvm/liblinear的SRC/SVR/Linear等模型现在支持通过样本数对C正规化参数进行缩放 Alexandre Gramfort .
新 Ensemble Methods 模块通过 Gilles Louppe 和 Brian Holt .该模块包含随机森林算法和额外树方法，以及文档和示例。
新颖性和异常值检测：异常值和新颖性检测，由 Virgile Fritsch .
核近似：通过以下方式在非线性内核上实现快速SDP的内核逼近的转换 Andreas Müller .
修正了一个由于原子交换的错误垂直匹配追求（OMP）通过 Vlad Niculae .
使用预先计算的字典进行稀疏编码通过 Vlad Niculae .
小批量K均值通过以下方式改进性能 Olivier Grisel .
K-means 支持稀疏矩阵 Mathieu Blondel .
为开发人员和 sklearn.utils 模块，通过 Jake Vanderplas .
载体化20个新闻组数据集加载器 (fetch_20newsgroups_vectorized ）由 Mathieu Blondel .
多类和多输出算法通过 Lars Buitinck .
用于快速计算稀疏矩阵的均值和方差的实用程序 Mathieu Blondel .
使 scale 和 sklearn.preprocessing.Scaler work on sparse matrices by Olivier Grisel
使用决策树和/或树木森林的特征重要性，通过 Gilles Louppe .
通过并行实现随机树森林 Gilles Louppe .
sklearn.cross_validation.ShuffleSplit 可以对训练集和测试集进行二次采样， Olivier Grisel .
由以下人员修复了文档构建中的错误 Andreas Müller .

API变更摘要#

以下是从scikit-learn 0.9版本升级时的代码迁移说明：

一些可能会重写其输入以节省内存的估计器以前 overwrite_ 参数;这些已被替换为 copy_ 具有完全相反含义的参数。

这特别影响中的一些估计器 linear_model .默认行为仍然是复制传递的所有内容。
SVMlight数据集加载器 load_svmlight_file 不再支持同时加载两个文件;使用 load_svmlight_files 而不是.此外，（未使用的） buffer_mb 参数消失了。
中的稀疏估计量随机梯度下降模块使用密集参数载体 coef_ 而不是 sparse_coef_ .这显着提高了测试时间性能。
的协方差估计模块现在有一个稳健的协方差估计器，即最小协方差决定性估计器。
集群评估指标 cluster 已被重构，但更改向后兼容。他们已被转移到 metrics.cluster.supervised ，以及 metrics.cluster.unsupervised 其中包含剪影系数。
的 permutation_test_score 函数现在的行为方式与 cross_val_score (i.e.使用跨折叠的平均得分。）
交叉验证生成器现在使用integer索引 (indices=True ）默认情况下，而不是布尔屏蔽。这使得使用稀疏矩阵数据更加直观。
用于稀疏编码的函数， sparse_encode 和 sparse_encode_parallel 已合并成 sparse_encode ，并且数组的形状已被调换，以与矩阵分解设置（而不是回归设置）保持一致。
修复了SVMlight/LibASM文件格式处理中的一个差一错误;使用 dump_svmlight_file 应该重新生成。(They应该继续工作，但不小心预先增加了一列零。）
BaseDictionaryLearning 类被替换为 SparseCodingMixin .
sklearn.utils.extmath.fast_svd 已重命名 randomized_svd 默认过采样现在固定为10个额外的随机载体，而不是将要提取的分量数量增加一倍。新行为遵循参考文件。

人#

自上次发布以来，以下人士对scikit-learn做出了贡献：

246 Andreas Müller
242 Olivier Grisel
220 Gilles Louppe
183 Brian Holt
166 Gael Varoquaux
144 Lars Buitinck
73 Vlad Niculae
65 Peter Prettenhofer
64 Fabian Pedregosa
60罗伯特·雷顿
55 Mathieu Blondel
52 Jake Vanderplas
44诺埃尔·达维
38 Alexandre Gramfort
24 Virgile Fritsch
23 Satrajit Ghosh
3 Jan Hendrik Metzen
3肯尼思·C阿诺德
3石桥渡
3蒂姆·谢尔曼-蔡斯
3 Yaroslav Halchenko
2巴拉·苏布拉马尼亚姆·瓦拉纳西
2 DraXus
2迈克尔·艾肯伯格
1博格丹·特拉奇
1菲利克斯-安托万·福尔廷
1胡安·曼努埃尔·凯塞多·卡瓦哈尔
1内勒·瓦罗夸
1 Nicolas Pinto
1蒂齐亚诺·齐托
1梦新繁

版本0.9#

September 21, 2011

scikit-learn 0.9 was released on September 2011, three months after the 0.8 release and includes the new modules 流形学习, 狄利克雷过程 as well as several new algorithms and documentation improvements.

该版本还包括由 Vlad Niculae 的一部分 Google Summer of Code 程序.

Changelog#

新流形学习模块通过 Jake Vanderplas 和 Fabian Pedregosa .
新 Dirichlet Process 高斯混合模型 Alexandre Passos
最近邻居模块重构方式 Jake Vanderplas ：一般重构、在输入、速度和文档改进方面支持稀疏矩阵。请参阅下一节，了解API更改的完整列表。
的改进特征选择模块通过 Gilles Louppe ：RFE类的重构、文档重写、提高效率和微小的API更改。
稀疏主成分分析（SparsePCA和MiniBatchSparsePCA）通过 Vlad Niculae , Gael Varoquaux 和 Alexandre Gramfort
打印估计器现在独立于体系结构和Python版本，这要归功于 Jean Kossaifi .
Loader for libsvm/svmlight format 通过 Mathieu Blondel 和 Lars Buitinck
文档改进：示例库中的缩略图 Fabian Pedregosa .
中的重要错误修复支持向量机模块（segfault，性能差）由 Fabian Pedregosa .
添加多项式朴素贝叶斯和伯努里天真的贝耶斯通过 Lars Buitinck
Lars Buitinck的文本特征提取优化
卡方特征选择 (feature_selection.chi2 ）由 Lars Buitinck .
生成的数据集模块重构方式 Gilles Louppe
多类和多输出算法通过 Mathieu Blondel
球树重写者 Jake Vanderplas
执行 DBSCAN 罗伯特·雷顿的算法
罗伯特·莱顿（Robert Layton）的Kmeans预测和转变
预处理模块重构方式 Olivier Grisel
康拉德·李（Conrad Lee）的更快均值漂移
新 Bootstrap , 随机排列交叉验证，又名洗牌和拆分以及交叉验证方案的各种其他改进 Olivier Grisel 和 Gael Varoquaux
调整Rand指数和V-Measure聚类评价指标， Olivier Grisel
添加 Orthogonal Matching Pursuit 通过 Vlad Niculae
在中添加了2D补丁提取器实用程序特征提取模块通过 Vlad Niculae
执行 LassoLarsCV （使用Lars算法交叉验证Lasso解算器）和 LassoLarsIC (BIC/Lars中的AIC型号选择） Gael Varoquaux 和 Alexandre Gramfort
可扩展性改进， metrics.roc_curve 作者：Olivier Hervieu
远程助手功能 metrics.pairwise_distances 和 metrics.pairwise.pairwise_kernels 作者：罗伯特·雷顿
Mini-Batch K-Means 作者：Nelle Varoquaux和Peter Pretenhofer。
Pietro Berkes的mldata实用程序。
奥利韦蒂面临数据集通过 David Warde-Farley .

API变更摘要#

以下是从scikit-learn 0.8版本升级时的代码迁移说明：

的 scikits.learn 包已重命名 sklearn .仍有 scikits.learn 用于向后兼容的包别名。

依赖scikit-learn 0.9+的第三方项目应该升级他们的代码库。例如，在Linux / MacOSX下，只需运行（首先备份！）：：
```
find -name "*.py" | xargs sed -i 's/\bscikits.learn\b/sklearn/g'
```
估计者不再接受模型参数， fit 参数：相反，所有参数都必须仅作为构造函数参数传递或使用现在公开的 set_params 继承自 BaseEstimator .

一些估计器仍然可以接受 fit 但这仅限于数据相关的值（例如，根据 X 数据矩阵。
的 cross_val 包已更名为 cross_validation 虽然也有 cross_val 包别名，以实现向后兼容性。

依赖scikit-learn 0.9+的第三方项目应该升级他们的代码库。例如，在Linux / MacOSX下，只需运行（首先备份！）：：
```
find -name "*.py" | xargs sed -i 's/\bcross_val\b/cross_validation/g'
```
的 score_func 论点 sklearn.cross_validation.cross_val_score 功能现在预计会接受 y_test 和 y_predicted 仅作为分类和回归任务的参数，或 X_test 对于无监督估计者。
gamma 支持向量机算法的参数设置为 1 / n_features 默认情况下，而不是 1 / n_samples .
的 sklearn.hmm 已被标记为孤儿：除非有人挺身而出提供文档、示例并解决潜在的数字稳定性问题，否则它将从0.11版本的scikit-learn中删除。
sklearn.neighbors 已被制作成一个子模块。之前可用的两个估计器， NeighborsClassifier 和 NeighborsRegressor 已被标记为废弃。它们的功能分为五个新类别： NearestNeighbors 对于无人监督的邻居搜索， KNeighborsClassifier & RadiusNeighborsClassifier 对于监督分类问题，以及 KNeighborsRegressor & RadiusNeighborsRegressor 用于监督回归问题。
sklearn.ball_tree.BallTree 已经移动到 sklearn.neighbors.BallTree . 使用前者会产生警告。
sklearn.linear_model.LARS() 和相关类别（LassoLARS、LassoLARSV等）已更名为 sklearn.linear_model.Lars() .
所有距离指标和核心 sklearn.metrics.pairwise 现在有一个Y参数，默认为无。如果没有给出，结果是Y中每个样本之间的距离（或核相似度）。如果给出，结果是X到Y中的样本之间的成对距离（或核相似度）。
sklearn.metrics.pairwise.l1_distance 现在被称为 manhattan_distance ，默认情况下返回成对距离。对于分量距离，设置参数 sum_over_features 到 False .

向后兼容包别名和其他不推荐使用的类和函数将在0.11版中删除。

人#

38人对此发布做出了贡献。

387 Vlad Niculae
320 Olivier Grisel
192 Lars Buitinck
179 Gael Varoquaux
168 Fabian Pedregosa (INRIA, Parietal Team )
127 Jake Vanderplas
120 Mathieu Blondel
85 Alexandre Passos
67 Alexandre Gramfort
57 Peter Prettenhofer
56 Gilles Louppe
42罗伯特·雷顿
38内勒·瓦罗夸
32 Jean Kossaifi
30康拉德·李
22彼得·伯克斯
18安迪
17大卫·沃德-法利
12布莱恩·霍尔特
11罗伯特
8阿米特助手
8 Virgile Fritsch
7 Yaroslav Halchenko
6塞尔瓦托·马塞基亚
5保罗·罗西
4文森特·舒特
3亚历克西斯·梅泰罗
3布莱恩·西尔弗索恩
3 Andreas Müller
2 Minwoo Jake Lee
1埃马纽埃尔·古亚尔
1 Keith Goodman
卢卡斯·威曼
1 Nicolas Pinto
1尤利西斯（雷）琼斯
1蒂姆·谢尔曼-蔡斯

版本0.8#

May 11, 2011

scikit-learn 0.8于2011年5月发布，距离第一个“国际”发布一个月 scikit-learn coding sprint 其标志是包含重要模块：层次聚类 , 交叉分解 , 非负矩阵分解（NMF或NNMF）、对Python 3的初步支持以及重要的增强和错误修复。

Changelog#

此版本期间引入了几个新模块：

新层次聚类模块由文森特·米歇尔， Bertrand Thirion , Alexandre Gramfort 和 Gael Varoquaux .
核心主成分分析（kPCA）实施 Mathieu Blondel
Wild人脸识别数据集中的Labeled Faces 通过 Olivier Grisel .
新交叉分解模块通过 Edouard Duchesnay .
非负矩阵分解（NMF或NNMF）模块 Vlad Niculae
实施 Oracle逼近收缩算法进行 Virgile Fritsch 在协方差估计 module.

其他一些模块受益于重大改进或清理。

对Python 3的初步支持：干净地构建和导入，某些模块可用，而其他模块则测试失败 Fabian Pedregosa .
PCA 现在可以通过以下方式从Pipeline对象使用 Olivier Grisel .
引导如何优化速度通过 Olivier Grisel .
修复libsvm绑定中的内存泄漏，Lars Buitinck设计的64位更安全的BallTree。
错误和风格修复 K-means Jan Schlüter的算法。
将收敛到高斯混合模型的属性添加到Vincent Schut。
实施 transform , predict_log_proba 在 LinearDiscriminantAnalysis 通过 Mathieu Blondel .
在支持向量机模块和错误修复 Fabian Pedregosa , Gael Varoquaux 和阿米特助手。
重构了BCD模块（删除了代码重复，更好的变量命名），添加了样本权重的接口 Peter Prettenhofer .
作者：Thomis（Ray）Jones用Cython包裹BallTree。
附加功能 svm.l1_min_c 作者：保罗·罗西。
Typos, doc style, etc. by Yaroslav Halchenko, Gael Varoquaux, Olivier Grisel, Yann Malet, Nicolas Pinto, Lars Buitinck and Fabian Pedregosa.

人#

使此发布成为可能的人员在提交数量之前：

159 Olivier Grisel
96 Gael Varoquaux
96 Vlad Niculae
94 Fabian Pedregosa
36 Alexandre Gramfort
32保罗·罗西
31 Edouard Duchesnay
30 Mathieu Blondel
25 Peter Prettenhofer
22 Nicolas Pinto
11 Virgile Fritsch
7拉斯·布廷克
6文森特·米歇尔
5 Bertrand Thirion
4托马斯（雷）琼斯
4文森特·舒特
3 Jan Schlüter
2朱利安·米奥特
2 Matthieu Perrot
2扬·马利特
2 Yaroslav Halchenko
1阿米特助手
1 Andreas Müller
1费思·阿雷茨基
1孟新凡

版本0.7#

March 2, 2011

scikit-learn 0.7于2011年3月发布，距离0.6发布大约三个月。该版本的特点是现有算法（例如k-最近邻居和K-Means算法）的速度改进，并且包含了计算Ridge广义交叉验证解决方案的高效算法。与上一个版本不同，此版本中没有添加新模块。

Changelog#

高斯混合模型采样的性能改进 [Jan Schlüter] .
Implementation of efficient leave-one-out cross-validated Ridge in RidgeCV [Mathieu Blondel]
Better handling of collinearity and early stopping in linear_model.lars_path [Alexandre Gramfort and Fabian Pedregosa].
标签和系数符号的自由线性排序的修复 [Dan Yamins, Paolo Losi, Mathieu Blondel and Fabian Pedregosa] .
多维空间中最近邻算法的性能改进 [Fabian Pedregosa] .
Performance improvements for KMeans [Gael Varoquaux and James Bergstra].
对基于SVMs的类进行健全检查 [Mathieu Blondel] .
的重构 neighbors.NeighborsClassifier and neighbors.kneighbors_graph: added different algorithms for the k-Nearest Neighbor Search and implemented a more stable algorithm for finding barycenter weights. Also added some developer documentation for this module, see notes_neighbors 欲了解更多信息 [Fabian Pedregosa] .
文档改进：已添加 pca.RandomizedPCA and LogisticRegression to the class reference. Also added references of matrices used for clustering and other fixes [Gael Varoquaux , Fabian Pedregosa , Mathieu Blondel , Olivier Grisel 、贾米尔·弗里奇、埃马纽埃尔·古亚尔]
Binded decision_function in classes that make use of liblinear, dense and sparse variants, like LinearSVC or LogisticRegression [Fabian Pedregosa].
性能和API改进， metrics.pairwise.euclidean_distances 并 pca.RandomizedPCA [James Bergstra ].
修复NetBDS下的编译问题 [Kamel Ibn Hassen Derouiche]
允许不同长度的输入序列 hmm.GaussianHMM [Ron Weiss ].
修复因索引不正确导致的亲和力传播错误 [Xinfan Meng]

人#

使此发布成为可能的人员在提交数量之前：

85 Fabian Pedregosa
67 Mathieu Blondel
20 Alexandre Gramfort
19 James Bergstra
14丹·杨
13 Olivier Grisel
12 Gael Varoquaux
4 Edouard Duchesnay
4 Ron Weiss
2 Satrajit Ghosh
2文森特·杜比
1埃马纽埃尔·古亚尔
1卡迈勒·伊本·哈桑·德鲁伊切
1保罗·罗西
1分Fritsch
1 Yaroslav Halchenko
1梦新繁

版本0.6#

December 21, 2010

scikit-learn 0.6于2010年12月发布。它的特点是包含了几个新模块并对旧模块进行了一般重命名。它的标志还包括新示例，包括对现实世界数据集的应用。

Changelog#

新 stochastic gradient 彼得·普雷滕霍弗（Peter Pretenhofer）的下降模块。该模块包含完整的文档和示例。
改进的svm模块：内存消耗减少了50%，启发式自动设置类权重，可以为样本分配权重（请参阅支持者：加权样本例如）。
新高斯过程模块作者：Vincent Duberty。该模块还包含大量的文档和一些非常简洁的示例。请参阅example_gaussian_Process_plot_GP_regulation.py或example_gaussian_Process_plot_GP_probability_classification_after_regulation.py了解可以做什么。
现在可以使用liblinear的Multi-class SVC（选项multi_class在 LinearSVC )
文本特征提取的新功能和性能改进。
改进了主要类中的稀疏矩阵支持 (GridSearchCV ）如模块sklearn.svm.sparse和sklearn.linear_model. sparse中。
创建了许多很酷的新示例和一个使用现实世界数据集的新部分。其中包括：使用特征脸和SVM的人脸识别示例 , 物种分布建模 , 维基百科主特征量等人
快最小角回归算法它现在比R版本在最坏情况下快2倍，在某些情况下快10倍。
更快的坐标下降算法。尤其是套索的完整路径版本 (linear_model.lasso_path ）比以前快了200倍以上。
现在可以从 LogisticRegression 模型
模块重命名：GLM模块已重命名为linear_Model，GMM模块已包含在更通用的混合模型中，而SGD模块已包含在linear_Model中。
大量的bug修复和文档改进。

人#

使此发布成为可能的人员在提交数量之前：

207 Olivier Grisel
167 Fabian Pedregosa
97 Peter Prettenhofer
68 Alexandre Gramfort
59 Mathieu Blondel
55 Gael Varoquaux
33文森特·杜比
21 Ron Weiss
9贝特朗·蒂里翁
3 Alexandre Passos
3 Anne-Laure Fouque
2罗南·阿米塞尔
1 Christian Osendorfer

版本0.5#

October 11, 2010

Changelog#

新类#

某些模分类器对稀疏矩阵的支持 svm 和 linear_model （见 svm.sparse.SVC , svm.sparse.SVR , svm.sparse.LinearSVC , linear_model.sparse.Lasso , linear_model.sparse.ElasticNet )
新 Pipeline 目标组成不同的估计器。
模块中的递进特征消除例程特征选择 .
线性模型模块中添加了各种能够交叉验证的类 (LassoCV , ElasticNetCV 等）。
新的、更高效的LARS算法实现。还实现了该算法的Lasso变体。看到 lars_path , Lars 和 LassoLars .
新的隐藏马尔科夫模型模块（请参阅类 hmm.GaussianHMM , hmm.MultinomialHMM , hmm.GMMHMM )
新模块feature_extraction（请参阅 class reference )
sklearn.fastica模块中的新FastICA算法

文件#

改进了许多模块的文档，现在将叙述文档与课堂参考分开。作为示例，请参阅 documentation for the SVM module 和完全 class reference .

修复#

API更改：将变量名称保留到PEP-8，给出更有意义的名称。
修复了svm模块在共享内存上下文（多处理）上运行的问题。
再次可以从狮身X文档生成乳胶（从而生成PDF）。

示例#

使用一些mlcomp数据集的新示例： sphx_glr_auto_examples_mlcomp_sparse_document_classification.py （已删除）和使用稀疏特征对文本文档进行分类
还有更多的例子。 See here 完整的例子列表。

外部依赖#

尽管它随（sklearn.externals.joblib）一起发货，但Joblib现在是该包的依赖项。

已删除模块#

模块ann（人工神经网络）已从发行版中删除。想要这种算法的用户应该研究一下pybrain。

Misc#

网页的新斯芬克斯主题。

作者#

以下是此版本的作者列表，前面是提交数量：

262法比安·佩德雷戈萨
240盖尔·瓦罗夸
149亚历山大·格兰福特
116奥利维尔·格里塞尔
文森特·米歇尔
38罗恩·韦斯
23马蒂厄·佩罗特
10伯特兰·蒂里翁
7雅罗斯拉夫·哈尔琴科
9候选人弗里奇
6 Edouard Duchesnay
4马蒂厄·布隆德尔
1阿里尔·罗克姆
1马蒂厄·布鲁彻

版本0.4#

August 26, 2010

Changelog#

此版本的主要变化包括：

坐标下降算法（Lasso、ElasticNet）重构和速度改进（大约快100倍）。
协调下降重构（和bug修复），以与R的包GLMNET保持一致。
新的指标模块。
Ron Weiss贡献的新GMM模块。
LARS算法的实现（目前没有Lasso变体）。
feature_selection模块重新设计。
迁移到GIT作为版本控制系统。
删除过时的attrselect模块。
私有已编译扩展的格式（添加了强调线）。
删除未维护的遗留代码。
文档改进（文档字符串和rst）。
改进构建系统以（可选）与MKL链接。此外，请提供精简版BLAS实现，以防找不到系统范围的BLAS。
很多新例子。
很多很多错误修复.

作者#

此版本的提交者列表如下（前面有提交数量）：

143法比安·佩德雷戈萨
35亚历山大·格兰福特
34奥利维尔·格里塞尔
11盖尔·瓦罗夸
5雅罗斯拉夫·哈尔琴科
2文森特·米歇尔
1克里斯·菲洛·戈洛夫斯基

早期版本#

早期版本包括Fred Mailhot、David Cooke、David Huard、Dave Morrill、Ed Schofield、Travis Oliphant、Pearu Peterson的贡献。