连续统计分布¶

概述¶

所有分布都将具有位置(L)和比例(S)参数以及所需的任何形状参数，形状参数的名称会有所不同。在下列情况下，将给出分发的标准格式 \(L=0.0\) 和 \(S=1.0.\) 各种功能的非标准表格可以使用(注： \(U\) 是标准的均匀随机变量)。

函数名称	标准函数	转型
累积分布函数(CDF)	\(F\left(x\right)\)	\(F\left(x;L,S\right)=F\left(\frac{\left(x-L\right)}{S}\right)\)
概率密度函数(PDF)	\(f\left(x\right)=F^{\prime}\left(x\right)\)	\(f\left(x;L,S\right)=\frac{1}{S}f\left(\frac{\left(x-L\right)}{S}\right)\)
百分比点函数(PPF)	\(G\left(q\right)=F^{-1}\left(q\right)\)	\(G\left(q;L,S\right)=L+SG\left(q\right)\)
概率稀疏函数(PSF)	\(g\left(q\right)=G^{\prime}\left(q\right)\)	\(g\left(q;L,S\right)=Sg\left(q\right)\)
危险函数(HF)	\(h_{a}\left(x\right)=\frac{f\left(x\right)}{1-F\left(x\right)}\)	\(h_{a}\left(x;L,S\right)=\frac{1}{S}h_{a}\left(\frac{\left(x-L\right)}{S}\right)\)
累积危险函数(CHF)	\(H_{a}\left(x\right)=\) \(\log\frac{1}{1-F\left(x\right)}\)	\(H_{a}\left(x;L,S\right)=H_{a}\left(\frac{\left(x-L\right)}{S}\right)\)
生存函数(SF)	\(S\left(x\right)=1-F\left(x\right)\)	\(S\left(x;L,S\right)=S\left(\frac{\left(x-L\right)}{S}\right)\)
逆生存函数(ISF)	\(Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\)	\(Z\left(\alpha;L,S\right)=L+SZ\left(\alpha\right)\)
矩母函数(MGF)	\(M_{Y}\left(t\right)=E\left[e^{Yt}\right]\)	\(M_{X}\left(t\right)=e^{Lt}M_{Y}\left(St\right)\)
随机变量	\(Y=G\left(U\right)\)	\(X=L+SY\)
(微分)熵	\(h\left[Y\right]=-\int f\left(y\right)\log f\left(y\right)dy\)	\(h\left[X\right]=h\left[Y\right]+\log S\)
(非中心)矩	\(\mu_{n}^{\prime}=E\left[Y^{n}\right]\)	\(E\left[X^{n}\right]=L^{n}\sum_{k=0}^{N}\left(\begin{array}{c} n\\ k\end{array}\right)\left(\frac{S}{L}\right)^{k}\mu_{k}^{\prime}\)
中心时刻	\(\mu_{n}=E\left[\left(Y-\mu\right)^{n}\right]\)	\(E\left[\left(X-\mu_{X}\right)^{n}\right]=S^{n}\mu_{n}\)
平均值(模式，中值)，变量	\(\mu,\,\mu_{2}\)	\(L+S\mu,\, S^{2}\mu_{2}\)
偏斜度	\(\gamma_{1}=\frac{\mu_{3}}{\left(\mu_{2}\right)^{3/2}}\)	\(\gamma_{1}\)
峰度	\(\gamma_{2}=\frac{\mu_{4}}{\left(\mu_{2}\right)^{2}}-3\)	\(\gamma_{2}\)

时刻¶

非中心矩是使用PDF定义的

\[\mu_{n}^{\prime}=\int_{-\infty}^{\infty}x^{n}f\left(x\right)dx.\]

请注意，这些值始终可以使用PPF计算。替身 \(x=G\left(q\right)\) 在上面的方程式中，并得到

\[\mu_{n}^{\prime}=\int_{0}^{1}G^{n}\left(q\right)dq\]

这可能更容易进行数值计算。请注意， \(q=F\left(x\right)\) 所以 \(dq=f\left(x\right)dx.\) 中心矩的计算方法类似 \(\mu=\mu_{{1}}^{{\prime}}\)

\BEGIN{eqnarray *}} \mu_{{n}} & = & \int_{{-\infty}}^{{\infty}}\left(x-\mu\right)^{{n}}f\left(x\right)dx\\ & = & \int_{{0}}^{{1}}\left(G\left(q\right)-\mu\right)^{{n}}dq\\ & = & \sum_{{k=0}}^{{n}}\left(\begin{{array}}{{c}} n\\ k\end{{array}}\right)\left(-\mu\right)^{{k}}\mu_{{n-k}}^{{\prime}}\end{{eqnarray* }

尤其是

\BEGIN{eqnarray *}} \mu_{{3}} & = & \mu_{{3}}^{{\prime}}-3\mu\mu_{{2}}^{{\prime}}+2\mu^{{3}}\\ & = & \mu_{{3}}^{{\prime}}-3\mu\mu_{{2}}-\mu^{{3}}\\ \mu_{{4}} & = & \mu_{{4}}^{{\prime}}-4\mu\mu_{{3}}^{{\prime}}+6\mu^{{2}}\mu_{{2}}^{{\prime}}-3\mu^{{4}}\\ & = & \mu_{{4}}^{{\prime}}-4\mu\mu_{{3}}-6\mu^{{2}}\mu_{{2}}-\mu^{{4}}\end{{eqnarray* }

偏度定义为

\[\gamma_{1}=\sqrt{\beta_{1}}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

而(费舍尔)峰度是

\[\Gamma_{2}=\frac{\MU_{4}}{\MU_{2}^{2}}-3，\]

所以正态分布的峰度为零。

中位数和模式¶

中位数， \(m_{{n}}\) 定义为密度的一半在一边，另一半在另一边的点。换句话说， \(F\left(m_{{n}}\right)=\frac{{1}}{{2}}\) 所以

\[M_{n}=G\Left(\frac{1}{2}\Right)。\]

另外，这个模式， \(m_{{d}}\) ，定义为概率密度函数达到峰值的值

\[m_{d}=\arg\max_{x}f\Left(x\Right)。\]

拟合数据¶

为了将数据拟合到分布中，最大似然函数是很常见的。或者，一些分布具有众所周知的最小方差无偏估计。默认情况下将选择这些参数，但似然函数始终可用于最小化。

如果 \(f\left(x;\boldsymbol{{\theta}}\right)\) 是随机变量的PDF，其中 \(\boldsymbol{{\theta}}\) 是参数的向量( e.g. \(L\) 和 \(S\) )，则用于 \(N\) 从这个分布中独立样本，联合分布随机向量 \(\mathbf{{x}}\) 是

\[f\left(\mathbf{x}；\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f\left(x_{i}；\boldsymbol{\theta}\right).\]

参数的最大似然估计 \(\boldsymbol{{\theta}}\) 是使此函数最大化的参数 \(\mathbf{{x}}\) 由数据固定和给定的：

\BEGIN{eqnarray *}} \boldsymbol{{\theta}}_{{es}} & = & \arg\max_{{\boldsymbol{{\theta}}}}f\left(\mathbf{{x}};\boldsymbol{{\theta}}\right)\\ & = & \arg\min_{{\boldsymbol{{\theta}}}}l_{{\mathbf{{x}}}}\left(\boldsymbol{{\theta}}\right).\end{{eqnarray* }

哪里

\BEGIN{eqnarray *}} l_{{\mathbf{{x}}}}\left(\boldsymbol{{\theta}}\right) & = & -\sum_{{i=1}}^{{N}}\log f\left(x_{{i}};\boldsymbol{{\theta}}\right)\\ & = & -N\overline{{\log f\left(x_{{i}};\boldsymbol{{\theta}}\right)}}\end{{eqnarray* }

请注意，如果 \(\boldsymbol{{\theta}}\) 仅包括形状参数，位置参数和比例参数可以通过替换 \(x_{{i}}\) 使用 \(\left(x_{{i}}-L\right)/S\) 在对数似然函数相加 \(N\log S\) 和最小化，因此

\BEGIN{eqnarray *}} l_{{\mathbf{{x}}}}\left(L,S;\boldsymbol{{\theta}}\right) & = & N\log S-\sum_{{i=1}}^{{N}}\log f\left(\frac{{x_{{i}}-L}}{{S}};\boldsymbol{{\theta}}\right)\\ & = & N\log S+l_{{\frac{{\mathbf{{x}}-S}}{{L}}}}\left(\boldsymbol{{\theta}}\right)\end{{eqnarray* }

如果需要，请提供以下示例估计 \(L\) 和 \(S\) (不一定是最大似然估计)可以从均值和方差的样本估计中使用

\BEGIN{eqnarray *}} \hat{{S}} & = & \sqrt{{\frac{{\hat{{\mu}}_{{2}}}}{{\mu_{{2}}}}}}\\ \hat{{L}} & = & \hat{{\mu}}-\hat{{S}}\mu\end{{eqnarray* }

哪里 \(\mu\) 和 \(\mu_{{2}}\) 的均值和方差假定为 未变换的 分布(何时 \(L=0\) 和 \(S=1\) )和

\BEGIN{eqnarray *}} \hat{{\mu}} & = & \frac{{1}}{{N}}\sum_{{i=1}}^{{N}}x_{{i}}=\bar{{\mathbf{{x}}}}\\ \hat{{\mu}}_{{2}} & = & \frac{{1}}{{N-1}}\sum_{{i=1}}^{{N}}\left(x_{{i}}-\hat{{\mu}}\right)^{{2}}=\frac{{N}}{{N-1}}\overline{{\left(\mathbf{{x}}-\bar{{\mathbf{{x}}}}\right)^{{2}}}}\end{{eqnarray* }

平均值的标准记法¶

我们将使用

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

哪里 \(N\) 应从上下文中清楚地看出样本的数量 \(x_{{i}}\)

参考文献¶

ranlib、rv2、cdflib的文档
埃里克·韦斯坦的数学世界http://mathworld.wolfram.com/，http://mathworld.wolfram.com/topics/StatisticalDistributions.html
“回归+的文档”，迈克尔·麦克劳克林的“项目工程和统计手册”(NIST)，https://www.itl.nist.gov/div898/handbook/
来自美国国家标准与技术研究院(https://www.itl.nist.gov/div898/software/dataplot/distribu.htm)的DATAPLOT文档
诺曼·约翰逊，塞缪尔·科茨和N·巴拉克里希南，连续单变量分布，第二版，第一卷和第二卷，威利父子出版社，1994年。

在本教程中，几个特殊函数反复出现，并在此处列出。

符号	描述	定义
\(\gamma\left(s, x\right)\)	下不完全Gamma函数	\(\int_0^x t^{s-1} e^{-t} dt\)
\(\Gamma\left(s, x\right)\)	上不完全Gamma函数	\(\int_x^\infty t^{s-1} e^{-t} dt\)
\(B\left(x;a,b\right)\)	不完整的Beta函数	\(\int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\)
\(I\left(x;a,b\right)\)	正则化不完全Beta函数	\(\frac{\Gamma\left(a+b\right)}{\Gamma\left(a\right)\Gamma\left(b\right)} \int_{0}^{x} t^{a-1}\left(1-t\right)^{b-1} dt\)
\(\phi\left(x\right)\)	正态分布的PDF格式	\(\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}\)
\(\Phi\left(x\right)\)	正态分布的CDF	\(\int_{-\infty}^{x}\phi\left(t\right) dt = \frac{1}{2}+\frac{1}{2}\mathrm{erf}\left(\frac{x}{\sqrt{2}}\right)\)
\(\psi\left(z\right)\)	Digamma函数	\(\frac{d}{dz} \log\left(\Gamma\left(z\right)\right)\)
\(\psi_{n}\left(z\right)\)	多伽马函数	\(\frac{d^{n+1}}{dz^{n+1}}\log\left(\Gamma\left(z\right)\right)\)
\(I_{\nu}\left(y\right)\)	修正的第一类贝塞尔函数
\(\mathrm{Ei}(\mathrm{z})\)	指数积分	\(-\int_{-x}^\infty \frac{e^{-t}}{t} dt\)
\(\zeta\left(n\right)\)	Riemann Zeta函数	\(\sum_{k=1}^{\infty} \frac{1}{k^{n}}\)
\(\zeta\left(n,z\right)\)	Hurwitz Zeta函数	\(\sum_{k=0}^{\infty} \frac{1}{\left(k+z\right)^{n}}\)
\(\,{}_{p}F_{q}(a_{1},\ldots,a_{p};b_{1},\ldots,b_{q};z)\)	超几何函数	\(\sum_{n=0}^{\infty} {\frac{(a_{1})_{n}\cdots(a_{p})_{n}}{(b_{1})_{n}\cdots(b_{q})_{n}}} \,{\frac{z^{n}}{n!}}\)

中的连续分布 `scipy.stats`¶

Yule-Simon分布

Alpha分布