版本0.15#

版本0.15.2#

September 4, 2014

Bug修复#

版本0.15.1#

August 1, 2014

Bug修复#

  • 制成 cross_validation.cross_val_score 使用 cross_validation.KFold 而不是 cross_validation.StratifiedKFold 关于多输出分类问题。通过 Nikolay Mayorov .

  • 支持未见标签 preprocessing.LabelBinarizer 恢复0.14.1的默认行为以实现向后兼容。通过 Hamzeh Alsalhi .

  • 修复了 cluster.KMeans 阻止早期收敛检测的停止标准。作者:爱德华·拉夫 Gael Varoquaux .

  • 修复的行为 multiclass.OneVsOneClassifier .如果在每个类别的投票级别上出现平局,则通过计算正确的每个类别的预测分数总和来进行。通过 Andreas Müller .

  • 制成 cross_validation.cross_val_score and grid_search.GridSearchCV accept Python lists as input data. This is especially useful for cross-validation and model selection of text processing pipelines. By Andreas Müller .

  • 修复了大多数估计器的数据输入检查,以接受实现NumPy的输入数据 __array__ 议定书这是for的情况 pandas.Seriespandas.DataFrame 在最近的熊猫版本中。通过 Gael Varoquaux .

  • 修复了回归 linear_model.SGDClassifierclass_weight="auto" 具有非连续标签的数据。通过 Olivier Grisel .

版本0.15#

July 15, 2014

亮点#

  • 整个代码中有许多速度和内存改进

  • 对随机森林(和额外的树)进行了巨大的速度和内存改进,这也从并行计算中受益更好。

  • 增量适应 BernoulliRBM

  • 添加 cluster.AgglomerativeClustering 用于具有平均联系、完全联系和病房策略的分层聚集。

  • 添加 linear_model.RANSACRegressor 用于稳健的回归模型。

  • 增加了维度缩减 manifold.TSNE 它可用于可视化多维数据。

Changelog#

新功能#

增强功能#

文档改进#

  • 使用文本数据教程现在已经被添加到主文档的教程部分。包括用于教程演示的练习和框架。由多位作者创建的原始教程,包括 Olivier Grisel 、拉尔斯·布廷克和许多其他人。通过以下方式简化集成到scikit-learn文档中 Jaques Grobler

  • 添加 Computational Performance 文献.预测延迟/吞吐量以及影响速度的不同因素的讨论和示例。构建更快模型并选择速度和预测能力之间的相关妥协的其他技巧。通过 Eustache Diemert .

Bug修复#

  • 修复了 decomposition.MiniBatchDictionaryLearning : partial_fit 工作不正常。

  • 修复了 linear_model.stochastic_gradient : l1_ratio 用作 (1.0 - l1_ratio) .

  • 修复了 multiclass.OneVsOneClassifier 带有字符串标签。

  • 修复了中的一个错误 LassoCVElasticNetCV :他们不会预先计算Gram矩阵 precompute=Trueprecompute="auto"n_samples > n_features .通过 Manoj Kumar .

  • 修复了中自由度的错误估计 feature_selection.f_regression 当变量不居中时。通过 Virgile Fritsch .

  • Fixed a race condition in parallel processing with pre_dispatch != "all" (for instance, in cross_val_score). By Olivier Grisel.

  • 提出错误 cluster.FeatureAgglomerationcluster.WardAgglomeration 当没有给出样本时,而不是返回毫无意义的集群。

  • 修复了 gradient_boosting.GradientBoostingRegressorloss='huber' : gamma 可能尚未初始化。

  • 固定特征重要性,当拟合时,使用随机树森林计算 sample_weight != None 和/或与 bootstrap=True .通过 Gilles Louppe .

API变更摘要#

  • sklearn.hmm 已经过时了计划在0.17版本中删除它。

  • 使用 covariance.EllipticEnvelop 现已被弃用后删除。请使用 covariance.EllipticEnvelope 而不是.

  • cluster.Ward 已经过时了使用 cluster.AgglomerativeClustering 而不是.

  • cluster.WardClustering 已经过时了使用

  • cluster.AgglomerativeClustering 而不是.

  • cross_validation.Bootstrap 已经过时了 cross_validation.KFoldcross_validation.ShuffleSplit 而是建议。

  • 不建议直接支持序列序列(或列表列表)多标签格式。要转换为支持的二进制指标矩阵格式,请使用 preprocessing.MultiLabelBinarizer .通过 Joel Nothman .

  • 添加评分方法 decomposition.PCA 遵循概率PCA模型并弃用 ProbabilisticPCA model whose score implementation is not correct. The computation now also exploits the matrix inversion lemma for faster computation. By Alexandre Gramfort .

  • 评分方法 decomposition.FactorAnalysis 现在返回样本的平均log似然。使用score_samples获取每个样本的log似然性。通过 Alexandre Gramfort .

  • 生成布尔屏蔽(设置 indices=False )不建议使用交叉验证生成器。对口罩的支持将于0.17取消。自0.10以来,生成器默认生成索引数组。通过 Joel Nothman .

  • 包含字符串的一维数组 dtype=object (as用于Pandas)现在被认为是有效的分类目标。这修复了某些分类器中从0.13版本的回归。通过 Joel Nothman .

  • 修复错误 explained_variance_ratio_ 中属性 RandomizedPCA. By Alexandre Gramfort .

  • 适合每个阿尔法 l1_ratio 而不是 mean_l1_ratiolinear_model.ElasticNetCVlinear_model.LassoCV .这改变了 alphas_(n_alphas,)(n_l1_ratio, n_alphas) 如果 l1_ratio 提供的是长度大于一的一维阵列类似对象。通过 Manoj Kumar .

  • 修复 linear_model.ElasticNetCVlinear_model.LassoCV 当匹配截取且输入数据稀疏时。阿尔法的自动网格计算不正确,并且规格化的缩放错误。通过 Manoj Kumar .

  • 修复绘制的最大要素数错误 (max_features )决策树、随机森林和梯度树提升的每次拆分。以前,绘制要素数量的计数仅在拆分中出现一个非恒定要素后才开始。在存在恒定特征的情况下,此错误修复将影响这些算法的计算和概括性能。要恢复以前的概括性能,您应该修改的值 max_features .通过 Arnaud Joly .

  • 修复绘制的最大要素数错误 (max_features )在每次分裂时 ensemble.ExtraTreesClassifierensemble.ExtraTreesRegressor .以前,只有拆分中的非恒定特征才算作绘制。现在,不变的要素算作绘制。此外,至少有一个特征必须是非恒定的,才能进行有效的拆分。此错误修复将影响存在恒定特征的额外树的计算和概括性能。要恢复以前的概括性能,您应该修改的值 max_features .通过 Arnaud Joly .

  • 修复 utils.class_weight.compute_class_weightclass_weight=="auto" .以前输入非integer时会损坏 dtype 并且返回的加权数组错误。通过 Manoj Kumar .

  • 修复 cross_validation.Bootstrap 返回 ValueErrorn_train + n_test > n .通过 Ronald Phlypo .

#

按提交次数列出的0.15版本的贡献者列表。

  • 312奥利维尔·格里塞尔

  • 275拉斯·布廷克

  • 221盖尔·瓦罗夸

  • 148阿诺·乔利

  • 小行星134

  • 119吉勒斯·卢佩

  • 113乔尔·诺斯曼

  • 111亚历山大·格兰福特

  • 95雅克·格罗布勒

  • 89丹尼斯·恩格尔曼

  • 83彼得·普雷滕霍夫

  • 83亚历山大·法比施

  • 62马蒂厄·布隆德尔

  • 60 Eustache Diemert

  • 60内勒·瓦罗夸

  • 49迈克尔·博马里托

  • 45马诺伊-库马尔-S

  • 28凯尔·卡斯特纳

  • 26安德烈亚斯·穆勒

  • 22诺埃尔·达维

  • 21 Maheshakya Wijewardena

  • 21 Brooke Osborn

  • 21哈姆泽·阿尔萨利

  • 21杰克·范德普拉斯

  • 21菲利普·热维斯

  • 19巴拉·苏布拉马尼亚姆·瓦拉纳西

  • 12罗纳德·普利波

  • 10米哈伊尔·科罗博夫

  • 8托马斯·翁特辛纳

  • 8杰弗里·布莱克本

  • 8埃尔特曼

  • 8布维格纳

  • 7安基特·阿格拉瓦尔

  • 7 CJ凯里

  • 6丹尼尔·努里

  • 6刘晨

  • 6迈克尔·艾肯伯格

  • 6 ugurthemaster

  • 5亚伦·舒马赫

  • 5巴蒂斯特·拉加德

  • 5拉加特·坎杜贾

  • 5罗伯特·麦吉诺夫

  • 5塞尔吉奥·帕斯卡尔

  • 4亚历克西斯·梅泰罗

  • 4伊格纳西奥·罗西

  • 第四章弗里奇

  • 4塞巴斯蒂安·塞格

  • 4伊万娜哈拉蒂·坎尼亚

  • 4吨4

  • 4罗伯特·雷顿

  • 4艾莉莎

  • 4阿莫斯Waterland

  • 3安德鲁·塔洛克

  • 3穆拉德

  • 3史蒂文·莫德

  • 3卡罗尔·皮斯尼亚克

  • 3雅克·克瓦姆

  • 3 cgohlke

  • 3 cjlin

  • 3迈克尔·贝克尔

  • 3哈姆泽

  • 3埃里克·雅各布森

  • 3 john collins

  • 3 kaushik 94

  • 3欧文·马尔西

  • 2顺时针

  • 2 LK

  • 2弗拉德·尼古拉

  • 2洛朗·德雷尔

  • 2埃里克·希尔茨

  • 2劳尔·加雷塔

  • 2巴斯克斯·巴埃萨义树

  • 2廖永祥

  • 2 abhishek thakur

  • 2余宇杰

  • 2罗希特·西瓦普拉萨德

  • 2罗兰·萨博

  • 2非机器

  • 2亚历克西斯·米尼翁

  • 2奥斯卡·卡尔森

  • 2南塔斯·纳尔德利

  • 2 jess010

  • 2科瓦尔斯基87

  • 2安德鲁·克莱格

  • 2费德里科·瓦吉

  • 2西蒙·弗里德

  • 2费利克斯-安托万·福尔廷

  • 1拉尔夫·戈默斯

  • 1 T型船尾

  • 1罗南·阿米塞尔

  • 1鲁佩什·库马尔·斯里瓦斯塔瓦

  • 1瑞安·王

  • 1塞缪尔·查伦

  • 1 Samuel St-Jean

  • 1法比安·佩德雷戈萨

  • 1船长海鸟

  • 1 Stefan Walk

  • 1斯特凡·范德沃特

  • 1斯蒂芬·霍耶

  • 1 Allen Riddell

  • 1瓦伦丁·海内尔

  • 1 Vijay Ramesh

  • 1威尔·迈尔斯

  • 1雅罗斯拉夫·哈尔琴科

  • 1约尼·本·梅舒拉姆

  • 1尤里·V·扎采夫

  • 1 Adrinjalali

  • 1 ai8 rahim

  • 1阿莱马尼亚尼

  • 1亚历克斯

  • 1本杰明·威尔逊

  • 1 chalmerlowe

  • 1 dzikie垂涎欲滴

  • 1 jamestwebber

  • 1个矩阵

  • 1 Popo

  • 1个萨缪拉

  • 1弗朗索瓦·布洛涅

  • 1亚历山大措施

  • 1伊森·怀特

  • 1吉尔赫姆·特林

  • 1亨德里克豪雅

  • 1伊维萨约维奇

  • 1 Jan Hendrik Metzen

  • 1让·米歇尔·鲁利

  • 1爱德华多·阿里诺·德拉·卢比奥

  • 1 Jelle Zijlstra

  • 1埃迪·L·O·扬森

  • 1丹尼斯

  • 1约翰

  • 约翰·施密特

  • 1豪尔赫·卡尼多·阿拉斯图伊

  • 1约瑟夫·佩拉

  • 图1约书亚·弗列德沃格德

  • 1何塞·里卡多

  • 1朱利安·米奥特

  • 1凯末尔·埃伦

  • 1佐藤健太

  • 1大卫·库纳波

  • 1凯尔·凯利

  • 1丹尼尔·梅德里

  • 1洛朗·卢斯

  • 1洛朗·皮隆

  • 1路易斯·佩德罗·科埃略

  • 1丹尼尔·韦岑菲尔德

  • 1克雷格·汤普森

  • 1邱奇贵

  • 马修·布雷特

  • 1马蒂亚斯·费雷尔

  • 1 Max Linke

  • 1克里斯·菲洛·戈洛夫斯基

  • 1查尔斯·厄尔

  • 1迈克尔·汉克

  • 1米歇尔·奥伦

  • 1布莱恩·伦特

  • 1布莱恩·卡恩斯

  • 保罗·巴特勒

  • 1帕韦托·曼德拉

  • 1彼得

  • 1安德鲁·阿什

  • 1彼得·赞贝利

  • 1斯塔布达