版本0.13#
版本0.13.1#
February 23, 2013
0.13.1版本仅修复了一些错误,没有添加任何新功能。
Changelog#
修复了由该功能引起的测试错误
cross_validation.train_test_split
being interpreted as a test by Yaroslav Halchenko .修复了重新分配小集群的错误
cluster.MiniBatchKMeans
通过 Gael Varoquaux .Fixed default value of
gamma
indecomposition.KernelPCA
by Lars Buitinck.更新jobib至
0.7.0d
通过 Gael Varoquaux .修复了异常行为的缩放
ensemble.GradientBoostingClassifier
通过 Peter Prettenhofer .更好的磨合
multiclass.OneVsOneClassifier
通过 Andreas Müller .对测试和文档的其他小改进。
人#
按提交次数列出的0.13.1版本的贡献者列表。
5罗伯特·马克曼
2赫里希凯什·维尔戈尔卡
1巴斯蒂安·范登伯格
1迭戈·莫拉
1拉斐尔·库尼亚·德阿尔梅达
1罗兰多·埃斯皮诺萨·拉富恩特
版本0.13#
January 21, 2013
新的估计类别#
dummy.DummyClassifier
和dummy.DummyRegressor
,两个数据独立的预测器, Mathieu Blondel .这对检查你的估计值很有用。看到 伪估计器 在用户指南中。添加的多输出支持 Arnaud Joly .decomposition.FactorAnalysis
,一个实施经典因子分析的Transformer,通过 Christian Osendorfer 和 Alexandre Gramfort .看到 因子分析 在用户指南中。feature_extraction.FeatureHasher
,一个实现“哈希技巧”的Transformer,通过以下方式从字符串字段中快速、低内存特征提取 Lars Buitinck 和feature_extraction.text.HashingVectorizer
对于文本文档, Olivier Grisel 看到 特征哈希 和 使用哈希技巧对大型文本库进行载体化 用于文档和示例使用。pipeline.FeatureUnion
,一个Transformer,通过以下方式将多个其他转换器的结果连接起来 Andreas Müller .看到 DeliverUnion:复合要素空间 在用户指南中。random_projection.GaussianRandomProjection
,random_projection.SparseRandomProjection
和功能random_projection.johnson_lindenstrauss_min_dim
.前两个是通过以下方式实现高斯和稀疏随机投影矩阵的转换器 Olivier Grisel 和 Arnaud Joly .看到 随机投影 在用户指南中。kernel_approximation.Nystroem
,一个用于通过以下方式逼近任意核的Transformer Andreas Müller .看到 核逼近的Nystroem方法 在用户指南中。preprocessing.OneHotEncoder
,一个Transformer,通过以下方式计算分类特征的二进制编码: Andreas Müller .看到 编码类别特征 在用户指南中。linear_model.PassiveAggressiveClassifier
和linear_model.PassiveAggressiveRegressor
,预测器通过以下方式对线性模型实施有效的随机优化 Rob Zinkov 和 Mathieu Blondel .看到 被动攻击算法 在用户指南中。ensemble.RandomTreesEmbedding
,一个Transformer,用于使用完全随机树的集合创建多维稀疏表示, Andreas Müller .看到 完全随机树嵌入 在用户指南中。manifold.SpectralEmbedding
和功能manifold.spectral_embedding
,李伟实现了“拉普拉斯特征映射”变换以实现非线性降维。看到 光谱嵌入 在用户指南中。isotonic.IsotonicRegression
通过 Fabian Pedregosa , Alexandre Gramfort 和 Nelle Varoquaux ,
Changelog#
metrics.zero_one_loss
(以前metrics.zero_one
)现在有一个标准化输出选项,可以报告错误分类的比例,而不是错误分类的原始数量。作者:凯尔·博尚。tree.DecisionTreeClassifier
所有衍生的集成模型现在都支持样本加权,通过 Noel Dawe 和 Gilles Louppe .在随机树的森林中使用自举样本时加速改进,通过 Peter Prettenhofer 和 Gilles Louppe .
的部分依赖图表 受影响的树木 在
ensemble.partial_dependence.partial_dependence
by Peter Prettenhofer .看到 sphx_glr_auto_examples_inspection_plot_partial_dependence.py 举个例子。该网站上的目录现已通过以下方式进行扩展: Jaques Grobler .
feature_selection.SelectPercentile
现在确定性地打破联系,而不是返回所有同等排名的特征。feature_selection.SelectKBest
和feature_selection.SelectPercentile
数字上更稳定,因为它们使用分数而不是p值来对结果进行排名。这意味着他们有时可能会选择与以前不同的功能。岭回归和岭分类与
sparse_cg
求解器不再具有二次存储复杂性,通过 Lars Buitinck 和 Fabian Pedregosa .岭回归和岭分类现在支持一个新的快速求解器,名为
lsqr
,由 Mathieu Blondel .提速
metrics.precision_recall_curve
作者:康拉德·李。添加了对使用成对偏好属性(svmlight文件格式中的qid)读写svmlight文件的支持
datasets.dump_svmlight_file
和datasets.load_svmlight_file
通过 Fabian Pedregosa .更快、更强大
metrics.confusion_matrix
和 集群绩效评估 作者:魏李。cross_validation.cross_val_score
现在可以使用预先计算的核和亲和力矩阵,由 Andreas Müller .LARS算法通过启发式算法在数字上更加稳定,以丢弃过于相关的回归量,并在数字噪音变得主要时停止路径, Gael Varoquaux .
更快地执行
metrics.precision_recall_curve
作者:康拉德·李。新内核
metrics.chi2_kernel
by Andreas Müller ,经常用于计算机视觉应用。修复长期存在的错误
naive_bayes.BernoulliNB
由肖恩·杰克曼修复。实施
predict_proba
在multiclass.OneVsRestClassifier
,作者:安德鲁·温特曼。Improve consistency in gradient boosting: estimators
ensemble.GradientBoostingRegressor
andensemble.GradientBoostingClassifier
use the estimatortree.DecisionTreeRegressor
instead of thetree._tree.Tree
data structure by Arnaud Joly.修复了 decision trees 模块,由Seberg。
修复
metrics.roc_curve
当y_true只有一个Wei Li的类时失败。添加
metrics.mean_absolute_error
计算平均绝对误差的函数。的metrics.mean_squared_error
,metrics.mean_absolute_error
和metrics.r2_score
指标支持多输出 Arnaud Joly .固定
class_weight
支持svm.LinearSVC
和linear_model.LogisticRegression
通过 Andreas Müller .的意义class_weight
被逆转,因为在早期版本中,较高的权重错误地意味着给定类别的阳性较少。改进叙述文档和一致性
sklearn.metrics
对于回归和分类指标, Arnaud Joly .修复了中的一个错误
sklearn.svm.SVC
当孟新凡使用具有未排序索引的csr矩阵时, Andreas Müller .cluster.MiniBatchKMeans
:添加随机重新分配集群中心,几乎没有附加观察结果,通过 Gael Varoquaux .
API变更摘要#
Renamed all occurrences of
n_atoms
ton_components
for consistency. This applies todecomposition.DictionaryLearning
,decomposition.MiniBatchDictionaryLearning
,decomposition.dict_learning
,decomposition.dict_learning_online
.Renamed all occurrences of
max_iters
tomax_iter
for consistency. This applies tosemi_supervised.LabelPropagation
andsemi_supervised.label_propagation.LabelSpreading
.Renamed all occurrences of
learn_rate
tolearning_rate
for consistency inensemble.BaseGradientBoosting
andensemble.GradientBoostingRegressor
.模块
sklearn.linear_model.sparse
不见了稀疏矩阵支持已经集成到“常规”线性模型中。sklearn.metrics.mean_square_error
,错误地返回了累积错误,已被删除。使用metrics.mean_squared_error
而不是.通过
class_weight
参数以fit
方法不再受支持。将它们传递给估计器构造器。甘迺迪不再有
decode
和rvs
方法.使用score
,predict
或sample
相反,方法。的
solver
Ridge回归和分类中的fit选项现已被弃用,并将在v0.14中删除。改用构造函数选项。feature_extraction.text.DictVectorizer
现在返回CSR格式的稀疏矩阵,而不是COO。更名
k
在cross_validation.KFold
和cross_validation.StratifiedKFold
到n_folds
,已更名n_bootstraps
到n_iter
在cross_validation.Bootstrap
.Renamed all occurrences of
n_iterations
ton_iter
for consistency. This applies tocross_validation.ShuffleSplit
,cross_validation.StratifiedShuffleSplit
,utils.extmath.randomized_range_finder
andutils.extmath.randomized_svd
.取代
rho
在linear_model.ElasticNet
和linear_model.SGDClassifier
通过l1_ratio
.的rho
参数含义不同;l1_ratio
是为了避免混乱而引入的。它的含义和以前一样rho
在linear_model.ElasticNet
和(1-rho)
在linear_model.SGDClassifier
.linear_model.LassoLars
和linear_model.Lars
现在,如果存在多个目标,则存储路径列表,而不是路径数组。属性
gmm
的hmm.GMMHMM
更名为gmm_
更严格地遵守API。cluster.spectral_embedding
被转移到manifold.spectral_embedding
.更名
eig_tol
在manifold.spectral_embedding
,cluster.SpectralClustering
到eigen_tol
,已更名mode
到eigen_solver
.更名
mode
在manifold.spectral_embedding
和cluster.SpectralClustering
到eigen_solver
.classes_
和n_classes_
属性tree.DecisionTreeClassifier
并且所有导出的系综模型现在在单输出问题的情况下是平坦的,并且在多输出问题的情况下是嵌套的。的
estimators_
属性ensemble.GradientBoostingRegressor
和ensemble.GradientBoostingClassifier
现在是一系列tree.DecisionTreeRegressor
.更名
chunk_size
到batch_size
在decomposition.MiniBatchDictionaryLearning
和decomposition.MiniBatchSparsePCA
为了一致性。svm.SVC
和svm.NuSVC
现在提供classes_
属性并支持标签的任意数据类型y
.此外,由返回的d类型predict
现在反映了d类型y
期间fit
(used是np.float
).更改了中的默认test_size
cross_validation.train_test_split
无,增加了推断的可能性test_size
从train_size
在cross_validation.ShuffleSplit
和cross_validation.StratifiedShuffleSplit
.重命名功能
sklearn.metrics.zero_one
到sklearn.metrics.zero_one_loss
.请注意,中的默认行为sklearn.metrics.zero_one_loss
不同于sklearn.metrics.zero_one
:normalize=False
被改变为normalize=True
.重命名功能
metrics.zero_one_score
到metrics.accuracy_score
.datasets.make_circles
现在具有相同数量的内点和外点。在天真的Bayes分类器中,
class_prior
参数已从fit
到__init__
.
人#
0.13版本的贡献者列表,按提交数量排列。
364 Andreas Müller
143 Arnaud Joly
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106李伟
101 Olivier Grisel
65 Vlad Niculae
30 Rob Zinkov
19艾默里克·马苏雷尔
18安德鲁·温特曼
17内勒·瓦罗夸
14 Daniel Nouri
13 syhw
10科里·林奇
10凯尔·比彻姆
9张布莱恩
9伊曼纽尔·拜耳
9舒先生
8康拉德·李
7塔德吉·詹内菲
6布莱恩·卡耶斯
6迈克尔
6诺埃尔·达维
6蒂亚戈·努涅斯
6 cow
5安泽
5石桥渡
4克里斯蒂安·若文
4雅克·克瓦姆
4理查德·T家伙
3亚历山大·亚伯拉罕
3道格·科尔曼
3斯科特·迪克森
2近似身份
2约翰·贝尼迪克松
2马克·维隆达
2马蒂·莱拉
2米哈伊尔·科罗博夫
2孟新繁
1 Alejandro Weinstein
1克里斯托夫·迪尔
1尤金·尼日比茨基
1肯尼思·C阿诺德
1路易斯·佩德罗·科埃略
1米罗斯拉夫·巴奇卡罗夫
1帕维尔
1塞巴斯蒂安·伯格
1肖恩·杰克曼
1 Subhodeep Moitra
1 Bob
1登格曼
1埃玛努埃莱
1 x 006