版本0.15#
版本0.15.2#
September 4, 2014
Bug修复#
修复了
p
Minkowski距离的参数,该参数以前在最近邻模型中被忽略。通过 Nikolay Mayorov .修复了中的重复alpha
linear_model.LassoLars
提前停止32位Python。通过 Olivier Grisel 和 Fabian Pedregosa .修复了scikit-learn使用MSVC构建而NumPy使用MinGW构建时在Windows下的构建。通过 Olivier Grisel 和 Federico Vaggi .
修复了坐标下降求解器中的数组索引溢出错误。通过 Gael Varoquaux .
更好地处理numpy 1.9弃用警告。通过 Gael Varoquaux .
删除了不必要的数据副本
cluster.KMeans
.通过 Gael Varoquaux .明确关闭打开的文件以避免
ResourceWarnings
在Python 3下。卡尔文·贾尔斯。的
transform
的discriminant_analysis.LinearDiscriminantAnalysis
现在将输入投射到最具区分性的方向上。作者:马丁·比林格。修复了潜在的溢出
_tree.safe_realloc
通过 Lars Buitinck .性能优化
isotonic.IsotonicRegression
.作者:罗伯特·布拉德肖。nose
不再是要导入的运行时依赖项sklearn
,仅用于运行测试。通过 Joel Nothman .许多文档和网站修复, Joel Nothman , Lars Buitinck Matt Pico ,以及其他。
版本0.15.1#
August 1, 2014
Bug修复#
制成
cross_validation.cross_val_score
使用cross_validation.KFold
而不是cross_validation.StratifiedKFold
关于多输出分类问题。通过 Nikolay Mayorov .支持未见标签
preprocessing.LabelBinarizer
恢复0.14.1的默认行为以实现向后兼容。通过 Hamzeh Alsalhi .修复了
cluster.KMeans
阻止早期收敛检测的停止标准。作者:爱德华·拉夫 Gael Varoquaux .修复的行为
multiclass.OneVsOneClassifier
.如果在每个类别的投票级别上出现平局,则通过计算正确的每个类别的预测分数总和来进行。通过 Andreas Müller .制成
cross_validation.cross_val_score
andgrid_search.GridSearchCV
accept Python lists as input data. This is especially useful for cross-validation and model selection of text processing pipelines. By Andreas Müller .修复了大多数估计器的数据输入检查,以接受实现NumPy的输入数据
__array__
议定书这是for的情况pandas.Series
和pandas.DataFrame
在最近的熊猫版本中。通过 Gael Varoquaux .修复了回归
linear_model.SGDClassifier
与class_weight="auto"
具有非连续标签的数据。通过 Olivier Grisel .
版本0.15#
July 15, 2014
亮点#
整个代码中有许多速度和内存改进
对随机森林(和额外的树)进行了巨大的速度和内存改进,这也从并行计算中受益更好。
增量适应
BernoulliRBM
添加
cluster.AgglomerativeClustering
用于具有平均联系、完全联系和病房策略的分层聚集。添加
linear_model.RANSACRegressor
用于稳健的回归模型。增加了维度缩减
manifold.TSNE
它可用于可视化多维数据。
Changelog#
新功能#
添加
ensemble.BaggingClassifier
和ensemble.BaggingRegressor
用于集成任何类型的基本估计量的元估计量。看到 Bagging 用户指南的部分了解详细信息和示例。通过 Gilles Louppe .新的无监督特征选择算法
feature_selection.VarianceThreshold
,由 Lars Buitinck .添加
linear_model.RANSACRegressor
回归模型鲁棒性匹配的元估计量。通过 Johannes Schönberger .添加
cluster.AgglomerativeClustering
对于具有平均联系、完全联系和病房策略的分层聚集聚集,通过 Nelle Varoquaux 和 Gael Varoquaux .速记建造者
pipeline.make_pipeline
和pipeline.make_union
添加了 Lars Buitinck .洗牌选项
cross_validation.StratifiedKFold
.通过 Jeffrey Blackburne .增量学习 (
partial_fit
)Imran Haque的Gaussian Naive Bayes。添加
partial_fit
到BernoulliRBM
通过 Danny Sullivan .添加
learning_curve
根据培训规模绘制绩效图表的实用程序。看到 绘制学习曲线并检查模型的可扩展性 .作者:亚历山大·法比施。添加积极选项
LassoCV
和ElasticNetCV
.作者:布莱恩·威格纳尔和 Alexandre Gramfort .添加
linear_model.MultiTaskElasticNetCV
和linear_model.MultiTaskLassoCV
.通过 Manoj Kumar .添加
manifold.TSNE
.作者:亚历山大·法比施。
增强功能#
Add sparse input support to
ensemble.AdaBoostClassifier
andensemble.AdaBoostRegressor
meta-estimators. By Hamzeh Alsalhi.决策树的记忆改进,通过 Arnaud Joly .
决策树现在可以通过使用
max_leaf_nodes
作为停止标准。重构了树代码以使用堆栈或优先级队列来构建树。通过 Peter Prettenhofer 和 Gilles Louppe .决策树现在可以安装在fortran和c风格数组以及非连续数组上,而无需复制。如果输入数组的dype与
np.float32
,将制作fortran风格的副本,因为fortran风格的内存布局具有速度优势。通过 Peter Prettenhofer 和 Gilles Louppe .通过优化均方误差准则的计算来加快回归树的速度。这导致树木、森林和梯度提升树木模块的加速改进。通过 Arnaud Joly
的
img_to_graph
和grid_tograph
功能sklearn.feature_extraction.image
现在返回np.ndarray
而不是np.matrix
当return_as=np.ndarray
. 有关兼容性的更多信息,请参阅注释部分。将决策树的内部存储更改为使用结构数组。这修复了一些小错误,同时改进了代码并提供了小幅的速度提升。通过 Joel Nothman .
在与随机树森林并行进行匹配和预测时,减少内存使用和系统管理
n_jobs != 1
通过利用jobib 0.8的新线程后台并在适合Cython代码的树中发布GIL。 通过 Olivier Grisel 和 Gilles Louppe .速度提高
sklearn.ensemble.gradient_boosting
module. By Gilles Louppe 和 Peter Prettenhofer .对
sklearn.ensemble.gradient_boosting
module: awarm_start
argument to fit additional trees, amax_leaf_nodes
argument to fit GBM style trees, amonitor
fit argument to inspect the estimator during training, and refactoring of the verbose code. By Peter Prettenhofer .快
sklearn.ensemble.ExtraTrees
by caching feature values. By Arnaud Joly .更快的基于深度的树构建算法,例如决策树、随机森林、额外树或梯度树提升(采用基于深度的增长策略),避免尝试在样本子集中发现的恒定特征上分裂。通过 Arnaud Joly .
添加
min_weight_fraction_leaf
基于树的方法的预修剪参数:叶节点所需的输入样本的最小加权分数。通过 Noel Dawe .添加
metrics.pairwise_distances_argmin_min
,作者:Philippe Gervais。添加了predict方法
cluster.AffinityPropagation
和cluster.MeanShift
,由 Mathieu Blondel .整个库中的载体和矩阵相乘已通过以下方式进行优化: Denis Engemann ,而且 Alexandre Gramfort .特别是,旧NumPy版本(1.7.2之前)应该占用更少的内存。
精确召回和ROC示例现在使用train_Test_split,并更多地解释了为什么这些指标有用。通过 Kyle Kastner
训练算法
decomposition.NMF
对于稀疏矩阵来说速度更快,并且内存复杂性低得多,这意味着它将优雅地扩展到大型数据集。通过 Lars Buitinck .添加了svd_system选项,默认值为“随机化”到
decomposition.FactorAnalysis
为了节省内存并显著加速计算, Denis Engemann ,而且 Alexandre Gramfort .改变
cross_validation.StratifiedKFold
to try and preserve as much of the original ordering of samples as possible so as not to hide overfitting on datasets with a non-negligible level of samples dependency. By Daniel Nouri 和 Olivier Grisel .添加多输出支持
gaussian_process.GaussianProcessRegressor
约翰·诺瓦克通过以下方式支持最近邻估计器中预先计算的距离矩阵 Robert Layton 和 Joel Nothman .
针对NumPy 1.6及更高版本优化了Norm计算 Lars Buitinck .特别是,k-means算法不再需要与其输入大小相同的临时数据结构。
dummy.DummyClassifier
现在可以用来预测一个恒定的输出值。通过 Manoj Kumar .dummy.DummyRegressor
现在有一个策略参数,可以预测训练集的平均值、中位数或恒定输出值。通过 Maheshakya Wijewardena .现在支持多标签指标格式的多标签分类输出
metrics.roc_auc_score
和metrics.average_precision_score
通过 Arnaud Joly .显著的性能改进(对于大型问题,加速超过100倍),
isotonic.IsotonicRegression
通过 Andrew Tulloch .针对线性模型的SGD算法的速度和内存使用改进:它现在使用线程,而不是单独的进程,
n_jobs>1
.通过 Lars Buitinck .网格搜索和交叉验证允许NaN在输入数组中,以便预处理器(例如)
preprocessing.Imputer
可以在交叉验证循环内进行训练,避免潜在的扭曲结果。岭回归现在可以处理特征空间中的样本权重(在此之前仅处理样本空间)。通过 Michael Eickenberg .这两个解决方案都由Cholesky求解器提供。
几个分类和回归指标现在支持加权样本,
sample_weight
论点:metrics.accuracy_score
,metrics.zero_one_loss
,metrics.precision_score
,metrics.average_precision_score
,metrics.f1_score
,metrics.fbeta_score
,metrics.recall_score
,metrics.roc_auc_score
,metrics.explained_variance_score
,metrics.mean_squared_error
,metrics.mean_absolute_error
,metrics.r2_score
.通过 Noel Dawe .加速样品发生器
datasets.make_multilabel_classification
.通过 Joel Nothman .
文档改进#
使用文本数据教程现在已经被添加到主文档的教程部分。包括用于教程演示的练习和框架。由多位作者创建的原始教程,包括 Olivier Grisel 、拉尔斯·布廷克和许多其他人。通过以下方式简化集成到scikit-learn文档中 Jaques Grobler
添加 Computational Performance 文献.预测延迟/吞吐量以及影响速度的不同因素的讨论和示例。构建更快模型并选择速度和预测能力之间的相关妥协的其他技巧。通过 Eustache Diemert .
Bug修复#
修复了
decomposition.MiniBatchDictionaryLearning
:partial_fit
工作不正常。修复了
linear_model.stochastic_gradient
:l1_ratio
用作(1.0 - l1_ratio)
.修复了
multiclass.OneVsOneClassifier
带有字符串标签。修复了中的一个错误
LassoCV
和ElasticNetCV
:他们不会预先计算Gram矩阵precompute=True
或precompute="auto"
和n_samples > n_features
.通过 Manoj Kumar .修复了中自由度的错误估计
feature_selection.f_regression
当变量不居中时。通过 Virgile Fritsch .Fixed a race condition in parallel processing with
pre_dispatch != "all"
(for instance, incross_val_score
). By Olivier Grisel.提出错误
cluster.FeatureAgglomeration
和cluster.WardAgglomeration
当没有给出样本时,而不是返回毫无意义的集群。修复了
gradient_boosting.GradientBoostingRegressor
与loss='huber'
:gamma
可能尚未初始化。固定特征重要性,当拟合时,使用随机树森林计算
sample_weight != None
和/或与bootstrap=True
.通过 Gilles Louppe .
API变更摘要#
sklearn.hmm
已经过时了计划在0.17版本中删除它。使用
covariance.EllipticEnvelop
现已被弃用后删除。请使用covariance.EllipticEnvelope
而不是.cluster.Ward
已经过时了使用cluster.AgglomerativeClustering
而不是.cluster.WardClustering
已经过时了使用cross_validation.Bootstrap
已经过时了cross_validation.KFold
或cross_validation.ShuffleSplit
而是建议。不建议直接支持序列序列(或列表列表)多标签格式。要转换为支持的二进制指标矩阵格式,请使用
preprocessing.MultiLabelBinarizer
.通过 Joel Nothman .添加评分方法
decomposition.PCA
遵循概率PCA模型并弃用ProbabilisticPCA
model whose score implementation is not correct. The computation now also exploits the matrix inversion lemma for faster computation. By Alexandre Gramfort .评分方法
decomposition.FactorAnalysis
现在返回样本的平均log似然。使用score_samples获取每个样本的log似然性。通过 Alexandre Gramfort .生成布尔屏蔽(设置
indices=False
)不建议使用交叉验证生成器。对口罩的支持将于0.17取消。自0.10以来,生成器默认生成索引数组。通过 Joel Nothman .包含字符串的一维数组
dtype=object
(as用于Pandas)现在被认为是有效的分类目标。这修复了某些分类器中从0.13版本的回归。通过 Joel Nothman .修复错误
explained_variance_ratio_
中属性RandomizedPCA
. By Alexandre Gramfort .适合每个阿尔法
l1_ratio
而不是mean_l1_ratio
在linear_model.ElasticNetCV
和linear_model.LassoCV
.这改变了alphas_
从(n_alphas,)
到(n_l1_ratio, n_alphas)
如果l1_ratio
提供的是长度大于一的一维阵列类似对象。通过 Manoj Kumar .修复
linear_model.ElasticNetCV
和linear_model.LassoCV
当匹配截取且输入数据稀疏时。阿尔法的自动网格计算不正确,并且规格化的缩放错误。通过 Manoj Kumar .修复绘制的最大要素数错误 (
max_features
)决策树、随机森林和梯度树提升的每次拆分。以前,绘制要素数量的计数仅在拆分中出现一个非恒定要素后才开始。在存在恒定特征的情况下,此错误修复将影响这些算法的计算和概括性能。要恢复以前的概括性能,您应该修改的值max_features
.通过 Arnaud Joly .修复绘制的最大要素数错误 (
max_features
)在每次分裂时ensemble.ExtraTreesClassifier
和ensemble.ExtraTreesRegressor
.以前,只有拆分中的非恒定特征才算作绘制。现在,不变的要素算作绘制。此外,至少有一个特征必须是非恒定的,才能进行有效的拆分。此错误修复将影响存在恒定特征的额外树的计算和概括性能。要恢复以前的概括性能,您应该修改的值max_features
.通过 Arnaud Joly .修复
utils.class_weight.compute_class_weight
当class_weight=="auto"
.以前输入非integer时会损坏dtype
并且返回的加权数组错误。通过 Manoj Kumar .修复
cross_validation.Bootstrap
返回ValueError
当n_train + n_test > n
.通过 Ronald Phlypo .
人#
按提交次数列出的0.15版本的贡献者列表。
312奥利维尔·格里塞尔
275拉斯·布廷克
221盖尔·瓦罗夸
148阿诺·乔利
小行星134
119吉勒斯·卢佩
113乔尔·诺斯曼
111亚历山大·格兰福特
95雅克·格罗布勒
89丹尼斯·恩格尔曼
83彼得·普雷滕霍夫
83亚历山大·法比施
62马蒂厄·布隆德尔
60 Eustache Diemert
60内勒·瓦罗夸
49迈克尔·博马里托
45马诺伊-库马尔-S
28凯尔·卡斯特纳
26安德烈亚斯·穆勒
22诺埃尔·达维
21 Maheshakya Wijewardena
21 Brooke Osborn
21哈姆泽·阿尔萨利
21杰克·范德普拉斯
21菲利普·热维斯
19巴拉·苏布拉马尼亚姆·瓦拉纳西
12罗纳德·普利波
10米哈伊尔·科罗博夫
8托马斯·翁特辛纳
8杰弗里·布莱克本
8埃尔特曼
8布维格纳
7安基特·阿格拉瓦尔
7 CJ凯里
6丹尼尔·努里
6刘晨
6迈克尔·艾肯伯格
6 ugurthemaster
5亚伦·舒马赫
5巴蒂斯特·拉加德
5拉加特·坎杜贾
5罗伯特·麦吉诺夫
5塞尔吉奥·帕斯卡尔
4亚历克西斯·梅泰罗
4伊格纳西奥·罗西
第四章弗里奇
4塞巴斯蒂安·塞格
4伊万娜哈拉蒂·坎尼亚
4吨4
4罗伯特·雷顿
4艾莉莎
4阿莫斯Waterland
3安德鲁·塔洛克
3穆拉德
3史蒂文·莫德
3卡罗尔·皮斯尼亚克
3雅克·克瓦姆
3 cgohlke
3 cjlin
3迈克尔·贝克尔
3哈姆泽
3埃里克·雅各布森
3 john collins
3 kaushik 94
3欧文·马尔西
2顺时针
2 LK
2弗拉德·尼古拉
2洛朗·德雷尔
2埃里克·希尔茨
2劳尔·加雷塔
2巴斯克斯·巴埃萨义树
2廖永祥
2 abhishek thakur
2余宇杰
2罗希特·西瓦普拉萨德
2罗兰·萨博
2非机器
2亚历克西斯·米尼翁
2奥斯卡·卡尔森
2南塔斯·纳尔德利
2 jess010
2科瓦尔斯基87
2安德鲁·克莱格
2费德里科·瓦吉
2西蒙·弗里德
2费利克斯-安托万·福尔廷
1拉尔夫·戈默斯
1 T型船尾
1罗南·阿米塞尔
1鲁佩什·库马尔·斯里瓦斯塔瓦
1瑞安·王
1塞缪尔·查伦
1 Samuel St-Jean
1法比安·佩德雷戈萨
1船长海鸟
1 Stefan Walk
1斯特凡·范德沃特
1斯蒂芬·霍耶
1 Allen Riddell
1瓦伦丁·海内尔
1 Vijay Ramesh
1威尔·迈尔斯
1雅罗斯拉夫·哈尔琴科
1约尼·本·梅舒拉姆
1尤里·V·扎采夫
1 Adrinjalali
1 ai8 rahim
1阿莱马尼亚尼
1亚历克斯
1本杰明·威尔逊
1 chalmerlowe
1 dzikie垂涎欲滴
1 jamestwebber
1个矩阵
1 Popo
1个萨缪拉
1弗朗索瓦·布洛涅
1亚历山大措施
1伊森·怀特
1吉尔赫姆·特林
1亨德里克豪雅
1伊维萨约维奇
1 Jan Hendrik Metzen
1让·米歇尔·鲁利
1爱德华多·阿里诺·德拉·卢比奥
1 Jelle Zijlstra
1埃迪·L·O·扬森
1丹尼斯
1约翰
约翰·施密特
1豪尔赫·卡尼多·阿拉斯图伊
1约瑟夫·佩拉
图1约书亚·弗列德沃格德
1何塞·里卡多
1朱利安·米奥特
1凯末尔·埃伦
1佐藤健太
1大卫·库纳波
1凯尔·凯利
1丹尼尔·梅德里
1洛朗·卢斯
1洛朗·皮隆
1路易斯·佩德罗·科埃略
1丹尼尔·韦岑菲尔德
1克雷格·汤普森
1邱奇贵
马修·布雷特
1马蒂亚斯·费雷尔
1 Max Linke
1克里斯·菲洛·戈洛夫斯基
1查尔斯·厄尔
1迈克尔·汉克
1米歇尔·奥伦
1布莱恩·伦特
1布莱恩·卡恩斯
保罗·巴特勒
1帕韦托·曼德拉
1彼得
1安德鲁·阿什
1彼得·赞贝利
1斯塔布达