旧版本#
版本0.12.1#
October 8, 2012
0.12.1版本是一个错误修复版本,没有额外功能,而是一组错误修复
Changelog#
通过提高谱嵌入的数值稳定性 Gael Varoquaux
Windows 64位下的DocTest由 Gael Varoquaux
文档修复弹性网络 Andreas Müller 和 Alexandre Gramfort
通过以下方式处理fortra排序NumPy数组的正确行为 Gael Varoquaux
通过以下方式使GridSearchCV处理非CSR稀疏矩阵 Lars Buitinck
修复MDS中的并行计算, Gael Varoquaux
通过修复计数向量器中的Unicode支持 Andreas Müller
通过X.Shape =(3,1)修复MinCovDet破裂 Virgile Fritsch
通过以下方式修复Singapore对象的克隆 Peter Prettenhofer
稳定GMM, Virgile Fritsch
人#
0.12版本#
September 4, 2012
Changelog#
各种速度改进 decision trees 模块,通过 Gilles Louppe .
GradientBoostingRegressor
和GradientBoostingClassifier
现在支持通过max_features
论点,由 Peter Prettenhofer .添加了Huber和分位数损失函数,
GradientBoostingRegressor
,由 Peter Prettenhofer .Decision trees 和 forests of randomized trees 现在支持多输出分类和回归问题,通过 Gilles Louppe .
添加
LabelEncoder
,一个简单的实用类,用于规范化标签或转换非数字标签,通过 Mathieu Blondel .添加了对epsilon不敏感的损失和通过修改后的胡伯损失进行概率预测的能力 随机梯度下降 ,由 Mathieu Blondel .
添加 多维缩放(SCS) 作者:Nelle Varoquaux。
SVMlight文件格式加载器现在检测压缩的(gZip/bzip 2)文件并通过以下方式动态解压缩它们 Lars Buitinck .
SVMlight文件格式序列化器现在通过以下方式保留双精度浮点值 Olivier Grisel .
添加了所有估计量的通用测试框架, Andreas Müller .
不接受稀疏输入的估计器的可理解错误消息 Gael Varoquaux
通过以下方法提高分层聚类的速度 Gael Varoquaux .特别是建造这棵树现在支持提前停止。当集群数量与样本数量相比不小时,这很有用。
添加MultiTaskLasso和MultiTaskElasticNet用于关节特征选择,通过 Alexandre Gramfort .
添加
metrics.auc_score
andmetrics.average_precision_score
convenience functions by Andreas Müller .改进的稀疏矩阵支持 特征选择 模块通过 Andreas Müller .
修复了光谱集群中导致单点集群的错误 Andreas Müller .
在
CountVectorizer
,添加了一个选项来忽略不常见的单词,min_df
通过 Andreas Müller .通过以下方式在某些线性模型(ElasticNet、Lasso和ThomonalMatchingPursuit)中添加对多个目标的支持 Vlad Niculae 和 Alexandre Gramfort .
中的修复程序
decomposition.ProbabilisticPCA
评分功能由魏力完成。修复了特征重要性计算 受影响的树木 .
API变更摘要#
老
scikits.learn
包已消失;所有代码都应从导入sklearn
相反,它在0.9中引入。在
metrics.roc_curve
,thresholds
数组的返回顺序现在颠倒了,以便与返回的fpr
和tpr
.在
hmm
物体,比如hmm.GaussianHMM
,hmm.MultinomialHMM
等,在初始化对象时,必须将所有参数传递给对象,fit
.现在fit
将仅接受数据作为输入参数。对于所有的支持者类,
gamma
已修复。以前,默认伽玛值仅在第一次计算fit
被调用并存储。现在每次调用时都会重新计算fit
.所有
Base
类现在是抽象Meta类,因此它们无法被实例化。cluster.ward_tree
现在还返回父数组。这对于提前停止是必要的,在这种情况下树尚未完全建成。在
CountVectorizer
的参数min_n
和max_n
已加入参数n_gram_range
以实现同时进行网格搜索。在
CountVectorizer
,默认情况下,仅出现在一个文档中的单词现在会被忽略。要重现之前的行为,请设置min_df=1
.修复API不一致性:
linear_model.SGDClassifier.predict_proba
现在当适合两个类时返回2D数组。修复API不一致性:
discriminant_analysis.QuadraticDiscriminantAnalysis.decision_function
和discriminant_analysis.LinearDiscriminantAnalysis.decision_function
现在,当适合两个类时,返回1d数组。用于装配的阿尔法网格
LassoCV
和ElasticNetCV
现在存储在属性中alphas_
而不是重写init参数alphas
.当通过交叉验证估计Alpha时,线性模型将估计值存储在
alpha_
属性而不仅仅是alpha
或best_alpha
.GradientBoostingClassifier
现在支持staged_predict_proba
,而且staged_predict
.svm.sparse.SVC
和其他稀疏的支持者类现在已被弃用。中的所有类 支持向量机 模块现在根据输入自动选择稀疏或密集表示。所有集群算法现在都解释阵列
X
给予fit
特别是作为输入数据SpectralClustering
和AffinityPropagation
此前预期的亲和力矩阵。对于将所需集群数量作为参数的集群算法,该参数现在被称为
n_clusters
.
人#
267 Andreas Müller
52 Vlad Niculae
44内勒·瓦罗夸
30亚历克西斯·米尼翁
30伊曼纽尔·拜耳
16 Subhodeep Moitra
13扬尼克·施瓦茨
12 @kernc
9丹尼尔·达克沃斯
8约翰·贝尼迪克松
7马尔科·布尔切克
4亚历山大·亚伯拉罕
3弗洛里安·霍伊格
3飞行immidev
2弗朗索瓦·萨瓦德
2汉内斯·舒尔茨
2彼得·韦林德
2李伟
1亚历克斯·孔尼
1布兰登·A.白色
1比索尼耶·马蒂亚斯
1查尔斯-皮埃尔·阿斯托尔菲
1丹·奥惠金
1大卫·库纳波
1 Keith Goodman
1路德维希·施瓦茨
1奥利维尔·埃尔维尤
1塞尔吉奥·梅迪纳
1石桥渡
1蒂姆·谢尔曼-蔡斯
1 buguen
版本0.11#
May 7, 2012
Changelog#
亮点#
梯度增强回归树 (受影响的树木 )进行分类和回归 Peter Prettenhofer 和 Scott White .
支持分类变量的简单的基于dict的特征加载器 (
DictVectorizer
)由 Lars Buitinck .添加马修斯相关系数 (
metrics.matthews_corrcoef
)并添加了宏观和微观平均选项,precision_score
,metrics.recall_score
和f1_score
通过 Satrajit Ghosh .袋外估计 概括错误 合奏:梯度提升、随机森林、装袋、投票、堆叠 通过 Andreas Müller .
用于特征选择的随机稀疏线性模型,通过 Alexandre Gramfort 和 Gael Varoquaux
标签传播 半监督学习,作者:Clay Woolam。 Note 半监督API仍在开发中,并且可能会发生变化。
在经典中添加了BIC/AIC型号选择 高斯混合模型 并通过以下方式统一API与scikit-learn的其余部分 Bertrand Thirion
添加
sklearn.cross_validation.StratifiedShuffleSplit
,这是sklearn.cross_validation.ShuffleSplit
平衡分裂,作者:雅尼克·施瓦茨。NearestCentroid
添加了分类器,以及shrink_threshold
参数,它实现 shrunken centroid classification ,由 Robert Layton .
其他变化#
合并的密集和稀疏实现 随机梯度下降 顺序数据集的模块和公开的实用工具扩展类型
seq_dataset
和权重载体weight_vector
通过 Peter Prettenhofer .添加
partial_fit
(支持在线/小批量学习)和warm_start 随机梯度下降 模块通过 Mathieu Blondel .密集和稀疏的实现 支持向量机 类和
LogisticRegression
合并者 Lars Buitinck .回归量现在可以用作 多类和多输出算法 模块通过 Mathieu Blondel .
添加了n_jobs选项
metrics.pairwise_distances
和metrics.pairwise.pairwise_kernels
对于并行计算,通过 Mathieu Blondel .K-means 现在可以使用
n_jobs
论点 K-means 或cluster.KMeans
,由 Robert Layton .改进 交叉验证:评估估计器性能 和 调整估计器的超参数 文档并介绍了新的
cross_validation.train_test_split
helper function by Olivier GriselSVC
成员coef_
和intercept_
更改标志以保持一致decision_function
;对于kernel==linear
,coef_
在一对一的情况下,由 Andreas Müller .高效留一交叉验证岭回归的性能改进,特别是针对
n_samples > n_features
案件RidgeCV
作者:鲁本·弗莱彻-科斯汀。重构和简化 文本特征提取 API并修复了导致可能为负IDF的错误,由 Olivier Grisel .
中的梁修剪选项
_BaseHMM
由于难以Cythonize,模块已被删除。如果您有兴趣贡献Cython版本,可以使用git历史记录中的python版本作为参考。班 最近邻居 现在支持最近邻搜索的任意Minkowski度量。指标可以通过参数指定
p
.
API变更摘要#
covariance.EllipticEnvelop
现在已被废弃。请使用EllipticEnvelope
而不是.NeighborsClassifier
和NeighborsRegressor
都消失在模块中了 最近邻居 .使用类KNeighborsClassifier
,RadiusNeighborsClassifier
,KNeighborsRegressor
和/或RadiusNeighborsRegressor
而不是.中的稀疏类 随机梯度下降 模块现已废弃。
在
mixture.GMM
,mixture.DPGMM
和mixture.VBGMM
,参数必须在初始化对象时传递给对象,而不是通过fit
.现在fit
将仅接受数据作为输入参数。方法
rvs
和decode
在GMM
模块现已废弃。sample
和score
或predict
应该改为使用。属性
_scores
和_pvalues
在单变量特征选择对象现在已被废弃。scores_
或pvalues_
应该改为使用。在
LogisticRegression
,LinearSVC
,SVC
和NuSVC
,class_weight
参数现在是初始化参数,而不是要适应的参数。这使得对该参数进行网格搜索成为可能。LFW
data
现在总是形状(n_samples, n_features)
与Olivetti面孔数据集保持一致。使用images
和pairs
属性来访问自然图像形状。在
LinearSVC
,的含义multi_class
参数已更改。 现在的选择是'ovr'
和'crammer_singer'
,'ovr'
是默认的。 这不会改变默认行为,但希望不会那么令人困惑。类
feature_selection.text.Vectorizer
已废弃并被替换为feature_selection.text.TfidfVectorizer
.用于文本特征提取的预处理器/分析器嵌套结构已被删除。所有这些功能现在都作为扁平构造函数参数直接传递给
feature_selection.text.TfidfVectorizer
和feature_selection.text.CountVectorizer
,特别是现在使用以下参数:analyzer
可以'word'
或'char'
切换默认分析方案,或使用特定的Python可调用(如前所述)。tokenizer
和preprocessor
已推出,以便仍然可以使用新的API自定义这些步骤。input
显式控制如何解释传递给的序列fit
和predict
:文件名、文件对象或直接(字节或Unicode)字符串。默认情况下,字符集解码是显式且严格的。
的
vocabulary
,无论是否安装现在都存储在vocabulary_
属性与项目约定一致。类
feature_selection.text.TfidfVectorizer
现在直接源自feature_selection.text.CountVectorizer
使网格搜索变得微不足道。方法
rvs
在_BaseHMM
模块现已废弃。sample
应该改为使用。中的梁修剪选项
_BaseHMM
由于难以被Cythonized,模块被删除。如果您感兴趣,可以通过git查看历史代码。SVMlight格式加载器现在支持具有从零开始和从一开始的列索引的文件,因为两者都是“在野外”发生的。
课堂上的争论
ShuffleSplit
现在与StratifiedShuffleSplit
.论点test_fraction
和train_fraction
已废弃并更名为test_size
和train_size
并且可以接受两者float
和int
.课堂上的争论
Bootstrap
现在与StratifiedShuffleSplit
.论点n_test
和n_train
已废弃并更名为test_size
和train_size
并且可以接受两者float
和int
.论点
p
添加到课程中 最近邻居 为最近邻搜索指定任意Minkowski度量。
人#
282 Andreas Müller
198 Gael Varoquaux
129 Olivier Grisel
114 Mathieu Blondel
103 Clay Woolam
28 Flyingimmidev
26石桥渡
17 David Marek
14 Vlad Niculae
11扬尼克·施瓦茨
9福科斯汀
7尼克·威尔逊
5阿德里安·盖登
5内勒·瓦罗夸
5 Emmanuelle Gouillart
3朱纳斯·西兰帕
3保罗·罗西
2查尔斯·麦卡锡
2 Roy Hyunjin韩
2斯科特·怀特
2 ibayer
1布兰登·怀特
1卡洛斯·谢德格
1克莱尔·雷维莱
1康拉德·李
1 Jan Hendrik Metzen
1孟新凡
一石桥
1乌迪·温斯伯格
1尤利西斯·弗里奇
1梦新繁
1雅罗斯拉夫·哈尔琴科
1 jansoe
1莱昂·帕拉福克斯
版本0.10#
January 11, 2012
Changelog#
Python 2.5 compatibility was dropped; the minimum Python version needed to use scikit-learn is now 2.6.
稀疏反协方差 使用Lasso图进行估计,以及相关的交叉验证估计器,通过 Gael Varoquaux
新 Tree 模块通过 Brian Holt , Peter Prettenhofer , Satrajit Ghosh 和 Gilles Louppe .该模块包含完整的文档和示例。
通过以下方式修复RFE模块中的错误 Gilles Louppe (问题#378)。
修复了内存泄漏 支持向量机 模块通过 Brian Holt (问题#367)。
更快的测试 Fabian Pedregosa 等人
剪影系数集群分析评价指标添加为
silhouette_score
作者:罗伯特·雷顿。修复了中的一个错误 K-means 在处理
n_init
参数:用于运行的聚类算法n_init
次数,但保留了最后的溶液而不是最好的溶液 Olivier Grisel .小重构 随机梯度下降 模块;整合了密集和稀疏预测方法;通过在匹配后将模型参数转换为fortran风格的数组来增强测试时间性能(仅限多类)。
调整后的相互信息指标添加为
adjusted_mutual_info_score
作者:罗伯特·雷顿。来自libsvm/liblinear的SRC/SVR/Linear等模型现在支持通过样本数对C正规化参数进行缩放 Alexandre Gramfort .
新 Ensemble Methods 模块通过 Gilles Louppe 和 Brian Holt .该模块包含随机森林算法和额外树方法,以及文档和示例。
新颖性和异常值检测 :异常值和新颖性检测,由 Virgile Fritsch .
核近似 :通过以下方式在非线性内核上实现快速SDP的内核逼近的转换 Andreas Müller .
修正了一个由于原子交换的错误 垂直匹配追求(OMP) 通过 Vlad Niculae .
小批量K均值 通过以下方式改进性能 Olivier Grisel .
K-means 支持稀疏矩阵 Mathieu Blondel .
为开发人员和
sklearn.utils
模块,通过 Jake Vanderplas .载体化20个新闻组数据集加载器 (
fetch_20newsgroups_vectorized
)由 Mathieu Blondel .多类和多输出算法 通过 Lars Buitinck .
用于快速计算稀疏矩阵的均值和方差的实用程序 Mathieu Blondel .
使
scale
和sklearn.preprocessing.Scaler
work on sparse matrices by Olivier Grisel使用决策树和/或树木森林的特征重要性,通过 Gilles Louppe .
通过并行实现随机树森林 Gilles Louppe .
sklearn.cross_validation.ShuffleSplit
可以对训练集和测试集进行二次采样, Olivier Grisel .由以下人员修复了文档构建中的错误 Andreas Müller .
API变更摘要#
以下是从scikit-learn 0.9版本升级时的代码迁移说明:
一些可能会重写其输入以节省内存的估计器以前
overwrite_
参数;这些已被替换为copy_
具有完全相反含义的参数。这特别影响中的一些估计器
linear_model
.默认行为仍然是复制传递的所有内容。SVMlight数据集加载器
load_svmlight_file
不再支持同时加载两个文件;使用load_svmlight_files
而不是.此外,(未使用的)buffer_mb
参数消失了。中的稀疏估计量 随机梯度下降 模块使用密集参数载体
coef_
而不是sparse_coef_
.这显着提高了测试时间性能。的 协方差估计 模块现在有一个稳健的协方差估计器,即最小协方差决定性估计器。
集群评估指标
cluster
已被重构,但更改向后兼容。他们已被转移到metrics.cluster.supervised
,以及metrics.cluster.unsupervised
其中包含剪影系数。的
permutation_test_score
函数现在的行为方式与cross_val_score
(i.e.使用跨折叠的平均得分。)交叉验证生成器现在使用integer索引 (
indices=True
)默认情况下,而不是布尔屏蔽。这使得使用稀疏矩阵数据更加直观。用于稀疏编码的函数,
sparse_encode
和sparse_encode_parallel
已合并成sparse_encode
,并且数组的形状已被调换,以与矩阵分解设置(而不是回归设置)保持一致。修复了SVMlight/LibASM文件格式处理中的一个差一错误;使用
dump_svmlight_file
应该重新生成。(They应该继续工作,但不小心预先增加了一列零。)BaseDictionaryLearning
类被替换为SparseCodingMixin
.sklearn.utils.extmath.fast_svd
已重命名randomized_svd
默认过采样现在固定为10个额外的随机载体,而不是将要提取的分量数量增加一倍。新行为遵循参考文件。
人#
自上次发布以来,以下人士对scikit-learn做出了贡献:
246 Andreas Müller
242 Olivier Grisel
220 Gilles Louppe
183 Brian Holt
166 Gael Varoquaux
144 Lars Buitinck
73 Vlad Niculae
60罗伯特·雷顿
44诺埃尔·达维
3 Jan Hendrik Metzen
3肯尼思·C阿诺德
3石桥渡
3蒂姆·谢尔曼-蔡斯
2巴拉·苏布拉马尼亚姆·瓦拉纳西
2 DraXus
2迈克尔·艾肯伯格
1博格丹·特拉奇
1菲利克斯-安托万·福尔廷
1胡安·曼努埃尔·凯塞多·卡瓦哈尔
1内勒·瓦罗夸
1蒂齐亚诺·齐托
1梦新繁
版本0.9#
September 21, 2011
scikit-learn 0.9 was released on September 2011, three months after the 0.8 release and includes the new modules 流形学习, 狄利克雷过程 as well as several new algorithms and documentation improvements.
该版本还包括由 Vlad Niculae 的一部分 Google Summer of Code 程序.
Changelog#
新 流形学习 模块通过 Jake Vanderplas 和 Fabian Pedregosa .
新 Dirichlet Process 高斯混合模型 Alexandre Passos
最近邻居 模块重构方式 Jake Vanderplas :一般重构、在输入、速度和文档改进方面支持稀疏矩阵。请参阅下一节,了解API更改的完整列表。
的改进 特征选择 模块通过 Gilles Louppe :RFE类的重构、文档重写、提高效率和微小的API更改。
稀疏主成分分析(SparsePCA和MiniBatchSparsePCA) 通过 Vlad Niculae , Gael Varoquaux 和 Alexandre Gramfort
打印估计器现在独立于体系结构和Python版本,这要归功于 Jean Kossaifi .
Loader for libsvm/svmlight format 通过 Mathieu Blondel 和 Lars Buitinck
文档改进:示例库中的缩略图 Fabian Pedregosa .
中的重要错误修复 支持向量机 模块(segfault,性能差)由 Fabian Pedregosa .
添加 多项式朴素贝叶斯 和 伯努里天真的贝耶斯 通过 Lars Buitinck
Lars Buitinck的文本特征提取优化
卡方特征选择 (
feature_selection.chi2
)由 Lars Buitinck .生成的数据集 模块重构方式 Gilles Louppe
球树重写者 Jake Vanderplas
执行 DBSCAN 罗伯特·雷顿的算法
罗伯特·莱顿(Robert Layton)的Kmeans预测和转变
预处理模块重构方式 Olivier Grisel
康拉德·李(Conrad Lee)的更快均值漂移
新
Bootstrap
, 随机排列交叉验证,又名洗牌和拆分 以及交叉验证方案的各种其他改进 Olivier Grisel 和 Gael Varoquaux调整Rand指数和V-Measure聚类评价指标, Olivier Grisel
在中添加了2D补丁提取器实用程序 特征提取 模块通过 Vlad Niculae
执行
LassoLarsCV
(使用Lars算法交叉验证Lasso解算器)和LassoLarsIC
(BIC/Lars中的AIC型号选择) Gael Varoquaux 和 Alexandre Gramfort可扩展性改进,
metrics.roc_curve
作者:Olivier Hervieu远程助手功能
metrics.pairwise_distances
和metrics.pairwise.pairwise_kernels
作者:罗伯特·雷顿Mini-Batch K-Means
作者:Nelle Varoquaux和Peter Pretenhofer。Pietro Berkes的mldata实用程序。
API变更摘要#
以下是从scikit-learn 0.8版本升级时的代码迁移说明:
的
scikits.learn
包已重命名sklearn
.仍有scikits.learn
用于向后兼容的包别名。依赖scikit-learn 0.9+的第三方项目应该升级他们的代码库。例如,在Linux / MacOSX下,只需运行(首先备份!)::
find -name "*.py" | xargs sed -i 's/\bscikits.learn\b/sklearn/g'
估计者不再接受模型参数,
fit
参数:相反,所有参数都必须仅作为构造函数参数传递或使用现在公开的set_params
继承自BaseEstimator
.一些估计器仍然可以接受
fit
但这仅限于数据相关的值(例如,根据X
数据矩阵。的
cross_val
包已更名为cross_validation
虽然也有cross_val
包别名,以实现向后兼容性。依赖scikit-learn 0.9+的第三方项目应该升级他们的代码库。例如,在Linux / MacOSX下,只需运行(首先备份!)::
find -name "*.py" | xargs sed -i 's/\bcross_val\b/cross_validation/g'
的
score_func
论点sklearn.cross_validation.cross_val_score
功能现在预计会接受y_test
和y_predicted
仅作为分类和回归任务的参数,或X_test
对于无监督估计者。gamma
支持向量机算法的参数设置为1 / n_features
默认情况下,而不是1 / n_samples
.的
sklearn.hmm
已被标记为孤儿:除非有人挺身而出提供文档、示例并解决潜在的数字稳定性问题,否则它将从0.11版本的scikit-learn中删除。sklearn.neighbors
已被制作成一个子模块。 之前可用的两个估计器,NeighborsClassifier
和NeighborsRegressor
已被标记为废弃。 它们的功能分为五个新类别:NearestNeighbors
对于无人监督的邻居搜索,KNeighborsClassifier
&RadiusNeighborsClassifier
对于监督分类问题,以及KNeighborsRegressor
&RadiusNeighborsRegressor
用于监督回归问题。sklearn.ball_tree.BallTree
已经移动到sklearn.neighbors.BallTree
. 使用前者会产生警告。sklearn.linear_model.LARS()
和相关类别(LassoLARS、LassoLARSV等)已更名为sklearn.linear_model.Lars()
.所有距离指标和核心
sklearn.metrics.pairwise
现在有一个Y参数,默认为无。如果没有给出,结果是Y中每个样本之间的距离(或核相似度)。如果给出,结果是X到Y中的样本之间的成对距离(或核相似度)。sklearn.metrics.pairwise.l1_distance
现在被称为manhattan_distance
,默认情况下返回成对距离。对于分量距离,设置参数sum_over_features
到False
.
向后兼容包别名和其他不推荐使用的类和函数将在0.11版中删除。
人#
38人对此发布做出了贡献。
387 Vlad Niculae
320 Olivier Grisel
192 Lars Buitinck
179 Gael Varoquaux
168 Fabian Pedregosa (INRIA, Parietal Team )
127 Jake Vanderplas
120 Mathieu Blondel
42罗伯特·雷顿
38内勒·瓦罗夸
30康拉德·李
22彼得·伯克斯
18安迪
17大卫·沃德-法利
12布莱恩·霍尔特
11罗伯特
8阿米特助手
6塞尔瓦托·马塞基亚
5保罗·罗西
4文森特·舒特
3亚历克西斯·梅泰罗
3布莱恩·西尔弗索恩
2 Minwoo Jake Lee
1埃马纽埃尔·古亚尔
1 Keith Goodman
卢卡斯·威曼
1尤利西斯(雷)琼斯
1蒂姆·谢尔曼-蔡斯
版本0.8#
May 11, 2011
scikit-learn 0.8于2011年5月发布,距离第一个“国际”发布一个月 scikit-learn coding sprint 其标志是包含重要模块: 层次聚类 , 交叉分解 , 非负矩阵分解(NMF或NNMF) 、对Python 3的初步支持以及重要的增强和错误修复。
Changelog#
此版本期间引入了几个新模块:
新 层次聚类 模块由文森特·米歇尔, Bertrand Thirion , Alexandre Gramfort 和 Gael Varoquaux .
新 交叉分解 模块通过 Edouard Duchesnay .
实施 Oracle逼近收缩 算法进行 Virgile Fritsch 在 协方差估计 module.
其他一些模块受益于重大改进或清理。
对Python 3的初步支持:干净地构建和导入,某些模块可用,而其他模块则测试失败 Fabian Pedregosa .
PCA
现在可以通过以下方式从Pipeline对象使用 Olivier Grisel .引导 如何优化速度 通过 Olivier Grisel .
修复libsvm绑定中的内存泄漏,Lars Buitinck设计的64位更安全的BallTree。
错误和风格修复 K-means Jan Schlüter的算法。
将收敛到高斯混合模型的属性添加到Vincent Schut。
实施
transform
,predict_log_proba
在LinearDiscriminantAnalysis
通过 Mathieu Blondel .在 支持向量机 模块和错误修复 Fabian Pedregosa , Gael Varoquaux 和阿米特助手。
重构了BCD模块(删除了代码重复,更好的变量命名),添加了样本权重的接口 Peter Prettenhofer .
作者:Thomis(Ray)Jones用Cython包裹BallTree。
附加功能
svm.l1_min_c
作者:保罗·罗西。Typos, doc style, etc. by Yaroslav Halchenko, Gael Varoquaux, Olivier Grisel, Yann Malet, Nicolas Pinto, Lars Buitinck and Fabian Pedregosa.
人#
使此发布成为可能的人员在提交数量之前:
159 Olivier Grisel
96 Vlad Niculae
32保罗·罗西
7拉斯·布廷克
6文森特·米歇尔
4托马斯(雷)琼斯
4文森特·舒特
3 Jan Schlüter
2朱利安·米奥特
2扬·马利特
1阿米特助手
1费思·阿雷茨基
1孟新凡
版本0.7#
March 2, 2011
scikit-learn 0.7于2011年3月发布,距离0.6发布大约三个月。该版本的特点是现有算法(例如k-最近邻居和K-Means算法)的速度改进,并且包含了计算Ridge广义交叉验证解决方案的高效算法。与上一个版本不同,此版本中没有添加新模块。
Changelog#
高斯混合模型采样的性能改进 [Jan Schlüter] .
Implementation of efficient leave-one-out cross-validated Ridge in
RidgeCV
[Mathieu Blondel]Better handling of collinearity and early stopping in
linear_model.lars_path
[Alexandre Gramfort and Fabian Pedregosa].标签和系数符号的自由线性排序的修复 [Dan Yamins, Paolo Losi, Mathieu Blondel and Fabian Pedregosa] .
多维空间中最近邻算法的性能改进 [Fabian Pedregosa] .
Performance improvements for
KMeans
[Gael Varoquaux and James Bergstra].对基于SVMs的类进行健全检查 [Mathieu Blondel] .
的重构
neighbors.NeighborsClassifier
andneighbors.kneighbors_graph
: added different algorithms for the k-Nearest Neighbor Search and implemented a more stable algorithm for finding barycenter weights. Also added some developer documentation for this module, see notes_neighbors 欲了解更多信息 [Fabian Pedregosa] .文档改进:已添加
pca.RandomizedPCA
andLogisticRegression
to the class reference. Also added references of matrices used for clustering and other fixes [Gael Varoquaux , Fabian Pedregosa , Mathieu Blondel , Olivier Grisel 、贾米尔·弗里奇、埃马纽埃尔·古亚尔]Binded decision_function in classes that make use of liblinear, dense and sparse variants, like
LinearSVC
orLogisticRegression
[Fabian Pedregosa].性能和API改进,
metrics.pairwise.euclidean_distances
并pca.RandomizedPCA
[James Bergstra ].修复NetBDS下的编译问题 [Kamel Ibn Hassen Derouiche]
允许不同长度的输入序列
hmm.GaussianHMM
[Ron Weiss ].修复因索引不正确导致的亲和力传播错误 [Xinfan Meng]
人#
使此发布成为可能的人员在提交数量之前:
14丹·杨
2 Satrajit Ghosh
2文森特·杜比
1埃马纽埃尔·古亚尔
1卡迈勒·伊本·哈桑·德鲁伊切
1保罗·罗西
1分Fritsch
1梦新繁
版本0.6#
December 21, 2010
scikit-learn 0.6于2010年12月发布。它的特点是包含了几个新模块并对旧模块进行了一般重命名。它的标志还包括新示例,包括对现实世界数据集的应用。
Changelog#
新 stochastic gradient 彼得·普雷滕霍弗(Peter Pretenhofer)的下降模块。该模块包含完整的文档和示例。
改进的svm模块:内存消耗减少了50%,启发式自动设置类权重,可以为样本分配权重(请参阅 支持者:加权样本 例如)。
新 高斯过程 模块作者:Vincent Duberty。该模块还包含大量的文档和一些非常简洁的示例。请参阅example_gaussian_Process_plot_GP_regulation.py或example_gaussian_Process_plot_GP_probability_classification_after_regulation.py了解可以做什么。
现在可以使用liblinear的Multi-class SVC(选项multi_class在
LinearSVC
)文本特征提取的新功能和性能改进。
改进了主要类中的稀疏矩阵支持 (
GridSearchCV
)如模块sklearn.svm.sparse和sklearn.linear_model. sparse中。创建了许多很酷的新示例和一个使用现实世界数据集的新部分。其中包括: 使用特征脸和SVM的人脸识别示例 , 物种分布建模 , 维基百科主特征量 等人
快 最小角回归 算法它现在比R版本在最坏情况下快2倍,在某些情况下快10倍。
更快的坐标下降算法。尤其是套索的完整路径版本 (
linear_model.lasso_path
)比以前快了200倍以上。现在可以从
LogisticRegression
模型模块重命名:GLM模块已重命名为linear_Model,GMM模块已包含在更通用的混合模型中,而SGD模块已包含在linear_Model中。
大量的bug修复和文档改进。
人#
使此发布成为可能的人员在提交数量之前:
207 Olivier Grisel
167 Fabian Pedregosa
33文森特·杜比
21 Ron Weiss
9贝特朗·蒂里翁
3 Anne-Laure Fouque
2罗南·阿米塞尔
版本0.5#
October 11, 2010
Changelog#
新类#
某些模分类器对稀疏矩阵的支持
svm
和linear_model
(见svm.sparse.SVC
,svm.sparse.SVR
,svm.sparse.LinearSVC
,linear_model.sparse.Lasso
,linear_model.sparse.ElasticNet
)新
Pipeline
目标组成不同的估计器。模块中的递进特征消除例程 特征选择 .
线性模型模块中添加了各种能够交叉验证的类 (
LassoCV
,ElasticNetCV
等)。新的、更高效的LARS算法实现。还实现了该算法的Lasso变体。看到
lars_path
,Lars
和LassoLars
.新的隐藏马尔科夫模型模块(请参阅类
hmm.GaussianHMM
,hmm.MultinomialHMM
,hmm.GMMHMM
)新模块feature_extraction(请参阅 class reference )
sklearn.fastica模块中的新FastICA算法
文件#
改进了许多模块的文档,现在将叙述文档与课堂参考分开。作为示例,请参阅 documentation for the SVM module 和完全 class reference .
修复#
API更改:将变量名称保留到PEP-8,给出更有意义的名称。
修复了svm模块在共享内存上下文(多处理)上运行的问题。
再次可以从狮身X文档生成乳胶(从而生成PDF)。
示例#
使用一些mlcomp数据集的新示例:
sphx_glr_auto_examples_mlcomp_sparse_document_classification.py
(已删除)和 使用稀疏特征对文本文档进行分类还有更多的例子。 See here 完整的例子列表。
外部依赖#
尽管它随(sklearn.externals.joblib)一起发货,但Joblib现在是该包的依赖项。
已删除模块#
模块ann(人工神经网络)已从发行版中删除。想要这种算法的用户应该研究一下pybrain。
Misc#
网页的新斯芬克斯主题。
版本0.4#
August 26, 2010
Changelog#
此版本的主要变化包括:
坐标下降算法(Lasso、ElasticNet)重构和速度改进(大约快100倍)。
协调下降重构(和bug修复),以与R的包GLMNET保持一致。
新的指标模块。
Ron Weiss贡献的新GMM模块。
LARS算法的实现(目前没有Lasso变体)。
feature_selection模块重新设计。
迁移到GIT作为版本控制系统。
删除过时的attrselect模块。
私有已编译扩展的格式(添加了强调线)。
删除未维护的遗留代码。
文档改进(文档字符串和rst)。
改进构建系统以(可选)与MKL链接。此外,请提供精简版BLAS实现,以防找不到系统范围的BLAS。
很多新例子。
很多很多错误修复.
作者#
此版本的提交者列表如下(前面有提交数量):
143法比安·佩德雷戈萨
35亚历山大·格兰福特
34奥利维尔·格里塞尔
11盖尔·瓦罗夸
5雅罗斯拉夫·哈尔琴科
2文森特·米歇尔
1克里斯·菲洛·戈洛夫斯基
早期版本#
早期版本包括Fred Mailhot、David Cooke、David Huard、Dave Morrill、Ed Schofield、Travis Oliphant、Pearu Peterson的贡献。