版本0.14#
版本0.14#
August 7, 2013
Changelog#
具有稀疏和密集矩阵的缺失值可以使用Transformer进行插补
preprocessing.Imputer
by Nicolas Trésegnie .决策树的核心实现已从头开始重写,允许更快的树诱导和所有基于树的估计器中更低的内存消耗。通过 Gilles Louppe .
添加
ensemble.AdaBoostClassifier
和ensemble.AdaBoostRegressor
,由 Noel Dawe 和 Gilles Louppe .看到 AdaBoost 用户指南的部分了解详细信息和示例。添加
grid_search.RandomizedSearchCV
andgrid_search.ParameterSampler
for randomized hyperparameter optimization. By Andreas Müller .添加 biclustering 算法 (
sklearn.cluster.bicluster.SpectralCoclustering
andsklearn.cluster.bicluster.SpectralBiclustering
), data generation methods (sklearn.datasets.make_biclusters
andsklearn.datasets.make_checkerboard
), and scoring metrics (sklearn.metrics.consensus_score
). By Kemal Eren .Added Restricted Boltzmann Machines (
neural_network.BernoulliRBM
). By Yann Dauphin.Python 3支持者 Justin Vincent , Lars Buitinck , Subhodeep Moitra 和 Olivier Grisel .所有测试现在都在Python 3.3下通过。
每个目标通过一个点球(阿尔法值)的能力
linear_model.Ridge
,作者:@eickenberg和 Mathieu Blondel .固定
sklearn.linear_model.stochastic_gradient.py
L2 regularization issue (minor practical significance). By Norbert Crombach and Mathieu Blondel .添加了交互版本的 Andreas Müller 的 Machine Learning Cheat Sheet (for scikit-learn) 到文档。看到 Choosing the right estimator .通过 Jaques Grobler .
grid_search.GridSearchCV
andcross_validation.cross_val_score
now support the use of advanced scoring functions such as area under the ROC curve and f-beta scores. See 的 scoring 参数:定义模型评估规则 for details. By Andreas Müller 和 Lars Buitinck .传递一个函数sklearn.metrics
作为score_func
已经过时了多标签分类输出现在由
metrics.accuracy_score
,metrics.zero_one_loss
,metrics.f1_score
,metrics.fbeta_score
,metrics.classification_report
,metrics.precision_score
和metrics.recall_score
通过 Arnaud Joly .两个新指标
metrics.hamming_loss
和metrics.jaccard_similarity_score
are added with multi-label support by Arnaud Joly .速度和内存使用的改进,
feature_extraction.text.CountVectorizer
和feature_extraction.text.TfidfVectorizer
作者:Jochen Wersdörfer和Roman Sinayev。的
min_df
参数feature_extraction.text.CountVectorizer
和feature_extraction.text.TfidfVectorizer
,以前是2,现已重置为1,以避免在小型文档集合上尝试它的新手用户出现不愉快的惊喜(空词汇表)。实际使用时,仍然建议至少为2。svm.LinearSVC
,linear_model.SGDClassifier
和linear_model.SGDRegressor
现在有一个sparsify
转换他们的方法coef_
转换为稀疏矩阵,这意味着使用这些估计器训练的存储模型可以变得更加紧凑。linear_model.SGDClassifier
在对数损失或修正的Huber损失下训练时,现在产生多类概率估计。链接到网站上示例代码中的文档 Martin Luessi .
修复了
preprocessing.MinMaxScaler
导致非默认要素缩放不正确feature_range
设置.通过 Andreas Müller .max_features
在tree.DecisionTreeClassifier
,tree.DecisionTreeRegressor
并且所有派生的集合估计器现在都支持百分比值。通过 Gilles Louppe .的性能改进
isotonic.IsotonicRegression
通过 Nelle Varoquaux .metrics.accuracy_score
有一个选项normalize返回正确分类的样本的分数或数量, Arnaud Joly .添加
metrics.log_loss
计算对数损失,也就是交叉熵损失。作者:Jochen Wersdörfer, Lars Buitinck .一个导致
ensemble.AdaBoostClassifier
输出错误概率的问题已修复。功能选择器现在共享一个混合,提供一致的
transform
,inverse_transform
和get_support
方法.通过 Joel Nothman .合身的
grid_search.GridSearchCV
orgrid_search.RandomizedSearchCV
can now generally be pickled. By Joel Nothman .重构和载体化实施
metrics.roc_curve
和metrics.precision_recall_curve
.通过 Joel Nothman .新的估算者
sklearn.decomposition.TruncatedSVD
使用奇异分解对稀疏矩阵执行维度约简,并可用于潜在语义分析(LSA)。通过 Lars Buitinck .添加了文本数据的核心外学习的独立示例 sphx_glr_auto_examples_applications_plot_out_of_core_classification.py .通过 Eustache Diemert .
的默认组件数
sklearn.decomposition.RandomizedPCA
现在已正确记录为n_features
.这是默认行为,因此使用它的程序将继续正常工作。sklearn.cluster.KMeans
现在,在稀疏数据上可以快几个数量级(加速取决于稀疏性)。通过 Lars Buitinck .通过以下方式减少FastICA的内存占用 Denis Engemann 和 Alexandre Gramfort .
详细输出
sklearn.ensemble.gradient_boosting
now uses a column format and prints progress in decreasing frequency. It also shows the remaining time. By Peter Prettenhofer .sklearn.ensemble.gradient_boosting
提供开箱即用的改进oob_improvement_
rather than the OOB score for model selection. An example that shows how to use OOB estimates to select the number of trees was added. By Peter Prettenhofer .大多数指标现在支持字符串标签进行多类分类, Arnaud Joly 和 Lars Buitinck .
新的比利时MatchingPursuitCV类作者 Alexandre Gramfort 和 Vlad Niculae .
修复了中的一个错误
sklearn.covariance.GraphLassoCV
:当给定值列表时,“alphas”参数现在可以按预期工作。作者:菲利普·热维斯。修复了中的一个重要错误
sklearn.covariance.GraphLassoCV
这可以防止使用CV对象提供的所有折叠(仅使用前3个)。当提供CV对象时,与之前的版本相比,执行时间可能会显着增加(错误结果现在是正确的)。作者:菲利普·热维斯。cross_validation.cross_val_score
和grid_search
module is now tested with multi-output data by Arnaud Joly .datasets.make_multilabel_classification
现在可以返回标签指示符多标签格式的输出, Arnaud Joly .K-近邻,
neighbors.KNeighborsRegressor
和neighbors.RadiusNeighborsRegressor
,和半径邻居,neighbors.RadiusNeighborsRegressor
和neighbors.RadiusNeighborsClassifier
支持多输出数据 Arnaud Joly .基于LibSV的估计器中的随机状态 (
svm.SVC
,svm.NuSVC
,svm.OneClassSVM
,svm.SVR
,svm.NuSVR
现在可以控制了。 这对于确保使用以下训练的分类器的概率估计的一致性是有用的:probability=True
.通过 Vlad Niculae .对离散朴素Bayes分类器的核心外学习支持
sklearn.naive_bayes.MultinomialNB
和sklearn.naive_bayes.BernoulliNB
通过添加partial_fit
法 Olivier Grisel .新网站设计和导航 Gilles Louppe , Nelle Varoquaux 、文森特·米歇尔和 Andreas Müller .
改进的文档 multi-class, multi-label and multi-output classification 通过 Yannick Schwartz 和 Arnaud Joly .
中更好的输入和错误处理
sklearn.metrics
模块通过 Arnaud Joly 和 Joel Nothman .速度优化
hmm
模块通过 Mikhail KorobovSignificant speed improvements for
sklearn.cluster.DBSCAN
by cleverless
API变更摘要#
的
auc_score
更名metrics.roc_auc_score
.测试scikit-learn
sklearn.test()
已经过时了使用nosetests sklearn
从命令行。功能的重要性
tree.DecisionTreeClassifier
,tree.DecisionTreeRegressor
现在,当访问feature_importances_
属性设置compute_importances=True
不再需要。通过 Gilles Louppe .linear_model.lasso_path
和linear_model.enet_path
可以以与的相同的格式返回其结果linear_model.lars_path
.这是通过设置return_models
参数以False
.通过 Jaques Grobler 和 Alexandre Gramfortgrid_search.IterGrid
更名为grid_search.ParameterGrid
.修复了
KFold
causing imperfect class balance in some cases. By Alexandre Gramfort 还有塔德吉·詹内菲。sklearn.neighbors.BallTree
已被重构,并且sklearn.neighbors.KDTree
已添加共享相同界面。 Ball Tree现在可以使用各种距离指标。 这两个类别都有许多新方法,包括单树和双树查询、广度优先和深度优先搜索,以及更高级的查询,例如核密度估计和2点相关函数。通过 Jake Vanderplas已删除邻居查询中对scipy.spatial.cKDTree的支持,并将该功能替换为新的
sklearn.neighbors.KDTree
课sklearn.neighbors.KernelDensity
添加了,它使用各种内核执行有效的内核密度估计。sklearn.decomposition.KernelPCA
现在总是返回输出,n_components
组件,除非新参数remove_zero_eig
设置为True
.这种新行为与内核PCA的记录方式一致;以前,删除特征值为零的分量是默认的,对所有数据执行的。gcv_mode="auto"
不再尝试在加密稀疏矩阵上执行SVD,sklearn.linear_model.RidgeCV
.稀疏矩阵支持
sklearn.decomposition.RandomizedPCA
现在已经被弃用,TruncatedSVD
.cross_validation.KFold
和cross_validation.StratifiedKFold
now enforcen_folds >= 2
otherwise aValueError
is raised. By Olivier Grisel .datasets.load_files
的charset
和charset_errors
参数已重命名encoding
和decode_errors
.属性
oob_score_
在sklearn.ensemble.GradientBoostingRegressor
和sklearn.ensemble.GradientBoostingClassifier
已被废弃并已被替换为oob_improvement_
.ThomonalMatchingPursuit中的属性已被弃用(Copy_X、Gram、.)为了一致性,precompute_gram将precompute重命名为precompute。参见#2224。
sklearn.preprocessing.StandardScaler
现在将整数输入转换为浮点数,并引发警告。以前,它对密集整数输入进行四舍五入。sklearn.multiclass.OneVsRestClassifier
现在手上有一decision_function
法只要基础估计器实现decision_function
法通过 Kyle Kastner .更好的输入验证,警告y的意外形状。
人#
按提交次数列出的0.14版本的贡献者列表。
277吉勒斯·卢佩
245拉斯·布廷克
187安德烈亚斯·穆勒
124阿诺·乔利
112 Jaques Grobler
109盖尔·瓦罗夸
107奥利维尔·格里塞尔
102诺埃尔·达维
99凯末尔·埃伦
79乔尔·诺斯曼
75 Jake VanderPlas
73内勒·瓦罗夸
71弗拉德·尼古拉
65彼得·普雷滕霍费尔
64亚历山大·格兰福特
54马蒂厄·布朗德尔
38尼古拉斯·特雷塞尼
35胡子
27丹尼斯·恩格尔曼
25扬·N. Dauphin
19贾斯汀·文森特
17罗伯特·雷顿
15道格·科尔曼
14迈克尔·艾肯伯格
13罗伯特·马克曼
11法比安·佩德雷戈萨
11菲利普·热维斯
10吉姆·霍姆斯特罗姆
10塔德吉·詹内菲
10 syhw
9米哈伊尔·科罗博夫
9史蒂文·德格里兹
8谢尔盖夫
7本·鲁特
7赫里希凯什·维尔戈尔卡
6 Kyle Kastner
6马丁·卢西
6罗布·斯佩尔
5费德里科·瓦吉
5劳尔·加雷塔
5罗布·津科夫
4肯·盖斯
3 A. Flaxman
3丹顿科伯恩
3杜格尔·萨瑟兰
3伊恩·奥兹瓦尔德
3约翰内斯·申贝格
3罗伯特·麦吉诺夫
3罗曼·西纳耶夫
3萨博·罗兰
2迭戈·莫拉
2伊姆兰·哈克
2约亨·韦斯多夫
2谢尔盖·卡拉耶夫
2扬尼克·施瓦茨
2詹姆斯韦伯
1阿比吉特·科利
1亚历山大·法比施
1巴斯蒂安·范登伯格
1本杰明·彼得森
1丹尼尔·维尔科夫
1法兹鲁尔·沙赫里亚尔
1菲利克斯·布罗克赫德
1菲利克斯-安托万·福尔廷
1 Harikrishnan S
1杰克·黑尔
1杰克米克
1詹姆斯·麦克德莫特
1约翰·贝尼迪克松
1约翰·茨温克
图1约书亚·弗列德沃格德
1贾斯汀·帕蒂
1凯文·休斯
1凯尔·凯利
1马蒂亚斯·埃克曼
1米罗斯拉夫·舒贝尔涅茨基
1织井直树
1诺伯特·克伦巴赫
1拉斐尔·库尼亚·德阿尔梅达
1罗兰多·埃斯皮诺萨·拉富恩特
1谢默斯·阿布谢尔
谢尔盖·费尔德曼
1塞尔吉奥·梅迪纳
1斯特凡诺·拉塔里尼
1史蒂夫·科赫
1斯特拉·莫尔登
1托马斯·雅罗什
1雅罗斯拉夫·哈尔琴科