统计函数 (scipy.stats )

此模块包含大量的概率分布、汇总和频率统计、相关函数和统计测试、屏蔽统计、核密度估计、准蒙特卡罗功能等。

统计是一个非常大的领域,有一些主题超出了本网站的范围,并在其他软件包中涵盖。其中一些最重要的是:

  • statsmodels :回归、线性模型、时间序列分析、主题的扩展 scipy.stats

  • Pandas :表格数据、时间序列功能、与其他统计语言的接口。

  • PyMC :贝叶斯统计建模,概率机器学习。

  • scikit-learn :分类、回归、模型选择。

  • Seaborn :统计数据可视化。

  • rpy2 :Python to R桥。

概率分布

Each univariate distribution is an instance of a subclass of rv_continuous (rv_discrete for discrete distributions):

rv_continuous \([momtype, a, b, xtol, ...] )

用于子类化的通用连续随机变量类。

rv_discrete \([a, b, name, badvalue, ...] )

用于子类化的通用离散随机变量类。

rv_histogram \(直方图,*args, * *kwargs)

生成由直方图给出的分布。

连续分布

alpha 

一个阿尔法连续随机变量。

anglit 

有角度的连续随机变量。

arcsine 

一个反正弦连续的随机变量。

argus 

阿格斯分布

beta 

贝塔连续随机变量。

betaprime 

贝塔素数连续随机变量。

bradford 

布拉德福德连续随机变量。

burr 

Burr(III型)连续随机变量。

burr12 

BURR(XII型)连续随机变量。

cauchy 

柯西连续型随机变量。

chi 

一个X连续型随机变量。

chi2 

卡方连续随机变量。

cosine 

余弦连续随机变量。

crystalball 

晶球分布

dgamma 

双伽马连续随机变量。

dweibull 

双威布尔连续随机变量。

erlang 

一个Erlang连续随机变量。

expon 

指数连续型随机变量。

exponnorm 

指数修正的正态连续随机变量。

exponweib 

威布尔指数连续型随机变量。

exponpow 

指数幂连续随机变量。

f 

一个F连续的随机变量。

fatiguelife 

疲劳寿命(Birnbaum-Saunders)连续随机变量。

fisk 

一个FISK连续随机变量。

foldcauchy 

一个折叠的柯西连续随机变量。

foldnorm 

折叠的正态连续随机变量。

genlogistic 

广义Logistic连续随机变量。

gennorm 

广义正态连续随机变量。

genpareto 

广义帕累托连续型随机变量。

genexpon 

广义指数连续型随机变量。

genextreme 

广义极值连续型随机变量。

gausshyper 

一个高斯超几何连续随机变量。

gamma 

伽马连续随机变量。

gengamma 

广义伽马连续随机变量。

genhalflogistic 

一个广义半Logistic连续型随机变量。

genhyperbolic 

广义双曲连续型随机变量。

geninvgauss 

一个广义逆高斯连续随机变量。

gilbrat 

吉尔布拉特连续随机变量。

gompertz 

Gompertz(或截断的Gumbel)连续随机变量。

gumbel_r 

右斜Gumbel连续随机变量。

gumbel_l 

左偏Gumbel连续随机变量。

halfcauchy 

半柯西连续型随机变量。

halflogistic 

半逻辑连续随机变量。

halfnorm 

半正态连续随机变量。

halfgennorm 

广义正态连续随机变量的上半部分。

hypsecant 

双曲正割连续型随机变量。

invgamma 

一个倒置的伽马连续随机变量。

invgauss 

逆高斯连续随机变量。

invweibull 

一个倒置的威布尔连续随机变量。

johnsonsb 

约翰逊SB连续随机变量。

johnsonsu 

一个Johnson-Su连续随机变量。

kappa4 

Kappa 4参数分布。

kappa3 

Kappa 3参数分布。

ksone 

Kolmogorov-Smirnov单边检验统计分布。

kstwo 

Kolmogorov-Smirnov双侧检验统计分布。

kstwobign 

刻度Kolmogorov-Smirnov双侧检验统计量的极限分布。

laplace 

拉普拉斯连续随机变量。

laplace_asymmetric 

一个不对称的拉普拉斯连续随机变量。

levy 

利维连续随机变量。

levy_l 

一个左偏Levy连续随机变量。

levy_stable 

一个Levy稳定的连续随机变量。

logistic 

逻辑(或二次方)连续随机变量。

loggamma 

对数伽马连续随机变量。

loglaplace 

一个对数拉普拉斯连续型随机变量。

lognorm 

对数正态连续随机变量。

loguniform 

对数均匀或倒数连续的随机变量。

lomax 

Lomax(第二类帕累托)连续随机变量。

maxwell 

麦克斯韦连续随机变量。

mielke 

一个Mielke Beta-Kappa/Dagum连续随机变量。

moyal 

莫亚尔连续随机变量。

nakagami 

一个Nakagami连续型随机变量。

ncx2 

一个非中心卡方连续型随机变量。

ncf 

非中心F分布连续型随机变量。

nct 

一个非中心学生t连续型随机变量。

norm 

正态连续随机变量。

norminvgauss 

正态逆高斯连续随机变量。

pareto 

帕累托连续随机变量。

pearson3 

皮尔逊III型连续随机变量。

powerlaw 

幂函数连续随机变量。

powerlognorm 

幂对数正态连续随机变量。

powernorm 

幂正态连续随机变量。

rdist 

R分布(对称β)连续随机变量。

rayleigh 

瑞利连续随机变量。

rice 

一个Rice连续型随机变量。

recipinvgauss 

一个倒数逆高斯连续随机变量。

semicircular 

半圆形连续随机变量。

skewcauchy 

一个倾斜的柯西随机变量。

skewnorm 

一个偏态正态随机变量。

studentized_range 

一个学生化的范围连续的随机变量。

t 

学生t连续型随机变量。

trapezoid 

梯形连续随机变量。

triang 

三角形连续随机变量。

truncexpon 

截断的指数连续随机变量。

truncnorm 

截断的正态连续随机变量。

tukeylambda 

一个Tukey-Lamdba连续随机变量。

uniform 

均匀连续的随机变量。

vonmises 

一个冯·米塞斯连续型随机变量。

vonmises_line 

一个冯·米塞斯连续型随机变量。

wald 

沃尔德连续随机变量。

weibull_min 

威布尔最小连续随机变量。

weibull_max 

威布尔最大连续随机变量。

wrapcauchy 

一个包裹的柯西连续型随机变量。

多元分布

multivariate_normal 

多变量正态随机变量。

matrix_normal 

矩阵正态随机变量。

dirichlet 

狄利克莱特随机变量。

wishart 

一个Wishart随机变量。

invwishart 

逆Wishart随机变量。

multinomial 

多项式随机变量。

special_ortho_group 

矩阵值SO(N)随机变量。

ortho_group 

矩阵值O(N)随机变量。

unitary_group 

矩阵值U(N)随机变量。

random_correlation 

随机相关矩阵。

multivariate_t 

多元t分布随机变量。

multivariate_hypergeom 

多变量超几何随机变量。

离散分布

bernoulli 

伯努利离散随机变量。

betabinom 

贝塔二项离散随机变量。

binom 

二项离散随机变量。

boltzmann 

波尔兹曼(截断离散指数)随机变量。

dlaplace 

拉普拉斯离散随机变量。

geom 

几何离散随机变量。

hypergeom 

超几何离散随机变量。

logser 

对数(对数系列、系列)离散随机变量。

nbinom 

负二项离散随机变量。

nchypergeom_fisher 

一个费舍尔非中心超几何离散随机变量。

nchypergeom_wallenius 

一个Wallenius的非中心超几何离散随机变量。

nhypergeom 

负的超几何离散随机变量。

planck 

普朗克离散指数随机变量。

poisson 

泊松离散随机变量。

randint 

均匀的离散随机变量。

skellam 

一个Skellam离散随机变量。

yulesimon 

一个Yule-Simon离散随机变量。

zipf 

Zipf(Zeta)离散随机变量。

zipfian 

Zipfian离散随机变量。

下面给出统计函数的概述。其中许多函数在 scipy.stats.mstats 其适用于掩蔽阵列。

汇总统计信息

describe \(a[, axis, ddof, bias, nan_policy] )

计算传递的数组的几个描述性统计信息。

gmean \(a[, axis, dtype, weights] )

计算沿指定轴的几何平均值。

hmean \(a[, axis, dtype] )

计算沿指定轴的调和平均值。

kurtosis \(a[, axis, fisher, bias, nan_policy] )

计算数据集的峰度(Fisher或Pearson)。

mode \(a[, axis, nan_policy] )

在传递的数组中返回模式值(最常见)的数组。

moment \(a[, moment, axis, nan_policy] )

计算样本平均值的n阶矩。

skew \(a[, axis, bias, nan_policy] )

计算数据集的样本偏斜度。

kstat \(数据[, n] )

返回第n个k-统计量(到目前为止,1<=n<=4)。

kstatvar \(数据[, n] )

返回k统计量方差的无偏估计。

tmean \(a[, limits, inclusive, axis] )

计算修剪后的平均值。

tvar \(a[, limits, inclusive, axis, ddof] )

计算修剪后的方差。

tmin \(a[, lowerlimit, axis, inclusive, ...] )

计算修剪后的最小值。

tmax \(a[, upperlimit, axis, inclusive, ...] )

计算修剪后的最大值。

tstd \(a[, limits, inclusive, axis, ddof] )

计算修剪后的样本标准偏差。

tsem \(a[, limits, inclusive, axis, ddof] )

计算平均值的修剪标准误差。

variation \(a[, axis, nan_policy, ddof] )

计算变异系数。

find_repeats \(arr)

查找重复次数和重复计数。

trim_mean \(a,按比例切割[, axis] )

从两个尾部修剪分布后数组的返回平均值。

gstd \(a[, axis, ddof] )

计算阵列的几何标准差。

iqr \(X[, axis, rng, scale, nan_policy, ...] )

计算沿指定轴的数据的四分位数范围。

sem \(a[, axis, ddof, nan_policy] )

计算平均值的标准误差。

bayes_mvs \(数据[, alpha] )

均值、方差和标准差的贝叶斯置信区间。

mvsdist \(数据)

数据的均值、方差和标准差的“冻结”分布。

entropy \(主键[, qk, base, axis] )

计算给定概率值的分布的熵。

differential_entropy \(值,*[, ...] )

给定一个分布样本,估计微分熵。

median_absolute_deviation \(*args, * *kwds)

median_absolute_deviation 已弃用,请使用 median_abs_deviation 取而代之的是!

median_abs_deviation \(X[, axis, center, ...] )

计算数据沿给定轴的中位数绝对偏差。

bootstrap \(数据,统计,*[, vectorized, ...] )

计算统计量的双边Bootstrap置信区间。

频率统计

cumfreq \(a[, numbins, defaultreallimits, weights] )

使用直方图函数返回累积频率直方图。

itemfreq \(*args, * *kwds)

itemfreq 已弃用! itemfreq 已弃用,并将在将来的版本中删除。

percentileofscore \(a,分数[, kind] )

计算分数相对于分数列表的百分位排名。

scoreatpercentile \(a,每个[, limit, ...] )

计算输入序列中给定百分位的分数。

relfreq \(a[, numbins, defaultreallimits, weights] )

使用直方图函数返回相对频率直方图。

binned_statistic \(X,值[, statistic, ...] )

计算一组或多组数据的入库统计信息。

binned_statistic_2d \(X,Y,值[, ...] )

计算一组或多组数据的二维入库统计。

binned_statistic_dd \(示例,值[, ...] )

计算一组数据的多维入库统计。

相关函数

f_oneway \(*参数[, axis] )

进行单因素方差分析。

alexandergovern \(*参数[, nan_policy] )

执行亚历山大治理测试。

pearsonr \(X,y)

皮尔逊相关系数和p值用于检验不相关性。

spearmanr \(a[, b, axis, nan_policy, alternative] )

计算具有相关p值的Spearman相关系数。

pointbiserialr \(X,y)

计算点的双列相关系数及其p值。

kendalltau \(X,y[, initial_lexsort, ...] )

计算Kendall‘s tau,这是一种序数数据的相关性度量。

weightedtau \(X,y[, rank, weigher, additive] )

计算肯德尔公式的加权版本 \(\tau\)

somersd \(X[, y, alternative] )

计算萨默斯D,这是一种不对称的序数关联度量。

linregress \(X[, y, alternative] )

计算两组测量值的线性最小二乘回归。

siegelslopes \(y[, x, method] )

计算一组点(x,y)的Siegel估计器。

theilslopes \(y[, x, alpha, method] )

计算一组点(x,y)的Theil-Sen估计量。

multiscale_graphcorr \(X,y[, ...] )

计算多尺度图形相关性(MGC)测试统计信息。

统计检验

ttest_1samp \(a,popmeans[, axis, nan_policy, ...] )

计算一组分数平均值的T检验。

ttest_ind \(a,b[, axis, equal_var, ...] )

计算均数的T检验 两个独立的 分数样本。

ttest_ind_from_stats \(意思是1,std1,nobs1,.)

描述性统计中两个独立样本均值的t检验。

ttest_rel \(a,b[, axis, nan_policy, alternative] )

计算分数的两个相关样本a和b的t检验。

chisquare \(F_OBS[, f_exp, ddof, axis] )

计算单向卡方检验。

cramervonmises \(房车,CDF[, args] )

执行单样本Cramér-von Mises测试以确定拟合优度。

cramervonmises_2samp \(X,y[, method] )

执行两个样本的Cramér-von Mises拟合优度测试。

power_divergence \(F_OBS[, f_exp, ddof, axis, ...] )

Cressie-Read功率散度统计和拟合优度检验。

kstest \(房车,CDF[, args, N, alternative, mode] )

执行(单样本或双样本)Kolmogorov-Smirnov拟合优度检验。

ks_1samp \(X,CDF[, args, alternative, mode] )

对拟合优度执行单样本Kolmogorov-Smirnov检验。

ks_2samp \(data1,data2[, alternative, mode] )

执行双样本Kolmogorov-Smirnov拟合优度检验。

epps_singleton_2samp \(X,y[, t] )

计算Epps-Singleton(ES)检验统计量。

mannwhitneyu \(X,y[, use_continuity, ...] )

对两个独立样本进行Mann-Whitney U秩检验。

tiecorrect \(排名)

Mann-Whitney U和Kruskal-Wallis H试验的平局修正因子。

rankdata \(a[, method, axis] )

给数据分配等级,适当地处理关系。

ranksums \(X,y[, alternative, axis, nan_policy] )

计算两个样本的Wilcoxon秩和统计量。

wilcoxon \(X[, y, zero_method, correction, ...] )

计算Wilcoxon符号秩检验。

kruskal \(*参数[, nan_policy, axis] )

计算独立样本的Kruskal-Wallis H检验。

friedmanchisquare \(*参数)

计算重复测量的弗里德曼检验。

brunnermunzel \(X,y[, alternative, ...] )

计算样本x和y的Brunner-Munzel检验。

combine_pvalues \(pvalue[, method, weights] )

合并来自独立测试的p值,这些p值与相同的假设有关。

jarque_bera \(X)

对样本数据进行Jarque-Bera拟合优度检验。

page_trend_test \(数据[, ranked, ...] )

执行佩奇测试,这是一种测量治疗之间观察趋势的方法。

tukey_hsd \(*参数)

执行Tukey‘s HSD测试,以确定多种治疗方法的均数相等。

ansari \(X,y[, alternative] )

对同等刻度参数执行Ansari-Bradley测试。

bartlett \(*参数)

进行Bartlett‘s检验,以确定是否有相等的方差。

levene \(*参数[, center, proportiontocut] )

执行等方差的Levene检验。

shapiro \(X)

对正态性进行夏皮罗-威尔克检验。

anderson \(X[, dist] )

对来自特定分布的数据进行安德森-达林检验。

anderson_ksamp \(样本[, midrank] )

k样本的Anderson-Darling检验。

binom_test \(X[, n, p, alternative] )

执行成功概率为p的测试。

binomtest \(K,n[, p, alternative] )

执行成功概率为p的测试。

fligner \(*参数[, center, proportiontocut] )

对方差相等进行Fligner-Killeen检验。

median_test \(*参数[, ties, correction, ...] )

进行情绪的中位数测试。

mood \(X,y[, axis, alternative] )

对等尺度参数进行Mod‘s检验。

skewtest \(a[, axis, nan_policy, alternative] )

检验偏差是否不同于正态分布。

kurtosistest \(a[, axis, nan_policy, alternative] )

测试数据集是否具有正常峰度。

normaltest \(a[, axis, nan_policy] )

检验样本是否不同于正态分布。

拟蒙特卡罗

屏蔽统计函数

其他统计功能

变换

boxcox \(X[, lmbda, alpha, optimizer] )

返回由Box-Cox幂变换转换的数据集。

boxcox_normmax \(X[, brack, method, optimizer] )

计算输入数据的最佳Box-Cox变换参数。

boxcox_llf \(LMB,数据)

boxcox对数似然函数。

yeojohnson \(X[, lmbda] )

返回由Yeo-Johnson幂变换转换的数据集。

yeojohnson_normmax \(X[, brack] )

计算最佳的Yeo-Johnson变换参数。

yeojohnson_llf \(LMB,数据)

yojohnson对数似然函数。

obrientransform \(*参数)

对输入数据(任意数量的数组)计算O‘Brien变换。

sigmaclip \(a[, low, high] )

执行数组元素的迭代σ修剪。

trimboth \(a,按比例切割[, axis] )

从数组的两端切下一定比例的项。

trim1 \(a,按比例切割[, tail, axis] )

从传递的数组分布的一端切下一定比例。

zmap \(分数,比较[, axis, ddof, nan_policy] )

计算相对z得分。

zscore \(a[, axis, ddof, nan_policy] )

计算z分数。

统计距离

wasserstein_distance \(U_VALUES,V_VALUES[, ...] )

计算两个一维分布之间的第一个Wasserstein距离。

energy_distance \(U_VALUES,V_VALUES[, ...] )

计算两个一维分布之间的能量距离。

随机变量生成/CDF反演

rvs_ratio_uniforms \(PDF、UMAX、VMIN、VMAX[, ...] )

使用均匀比方法从概率密度函数生成随机样本。

NaiveRatioUniforms \(距离,*[, center, ...] )

朴素的制服比(NROU)法。

NumericalInverseHermite \(距离,*[, tol, ...] )

概率分布的Hermite样条快速数值逆。

NumericalInversePolynomial \(距离[, mode, ...] )

基于多项式插值的CDF反演(PINV)

TransformedDensityRejection \(距离[, mode, ...] )

变换密度排斥(TDR)法。

DiscreteAliasUrn \(距离,*[, domain, ...] )

离散别名-骨灰盒方法。

循环统计函数

circmean \(样本[, high, low, axis, nan_policy] )

计算某个范围内样本的循环平均值。

circvar \(样本[, high, low, axis, nan_policy] )

计算假设在某个范围内的样本的循环方差。

circstd \(样本[, high, low, axis, nan_policy] )

计算假设在该范围内的样本的圆形标准差 [从低到高] 。

列联表函数

chi2_contingency \(观察到[, correction, lambda_] )

列联表中变量独立性的卡方检验。

contingency.crosstab \(*参数[, levels, sparse] )

中每个可能的唯一组合的计数值的返回表。 *args

contingency.expected_freq \(观察到)

根据列联表计算预期频率。

contingency.margins \(a)

返回数组的边际和列表 a

contingency.relative_risk \(暴露的_案例,.)

计算相对风险(也称为风险比率)。

contingency.association \(观察到[, method, ...] )

计算两个名义变量之间的关联度。

fisher_exact \(表[, alternative] )

在2x2列联表上执行Fisher精确测试。

barnard_exact \(表[, alternative, pooled, n] )

在2x2列联表上执行Barnard精确测试。

boschloo_exact \(表[, alternative, n] )

在2x2列联表上执行Boschloo的精确测试。

情节测试

ppcc_max \(X[, brack, dist] )

计算使PPCC最大化的形状参数。

ppcc_plot \(X,a,b[, dist, plot, N] )

计算并根据需要绘制概率图相关系数。

probplot \(X[, sparams, dist, fit, plot, rvalue] )

计算概率图的分位数,并根据需要显示该图。

boxcox_normplot \(X,la,lb[, plot, N] )

计算Box-Cox正态图的参数,可以选择显示它。

yeojohnson_normplot \(X,la,lb[, plot, N] )

计算YEO-JONSON正态图的参数,有选择地显示它。

单变量和多变量核密度估计

gaussian_kde \(数据集[, bw_method, weights] )

用高斯核表示核密度估计。

中使用的警告/错误 scipy.stats

F_onewayConstantInputWarning \([msg] )

警告生成者 f_oneway 当输入是恒定的时,例如

F_onewayBadInputSizesWarning 

警告生成者 f_oneway 当一个输入的长度为0,或者如果所有的输入的长度都为1。

PearsonRConstantInputWarning \([msg] )

警告生成者 pearsonr 当输入为常量时。

PearsonRNearConstantInputWarning \([msg] )

警告生成者 pearsonr 当输入几乎不变时。

SpearmanRConstantInputWarning \([msg] )

警告生成者 spearmanr 当输入为常量时。

UNURANError 

当UNU.RAN库中发生错误时引发。