离散统计分布

离散随机变量只具有可计数的值。常用的发行版包含在本文档中,并在本文档中进行了描述。每个离散分布可以采用一个额外的整数参数: \(L.\) 一般分布之间的关系 \(p\) 和标准分布 \(p_{{0}}\)

\[p\Left(x\Right)=p_{0}\Left(x-L\Right)\]

其允许输入的移位。初始化分布生成器时,离散分布可以指定开始和结束(整数)值 \(a\)\(b\) 它必须是这样的

\[P_{0}\Left(x\Right)=0\quad x\]

在这种情况下,假设在整数上指定了pdf函数 \(a+mk\leq b\) 哪里 \(k\) 是一个非负整数( \(0,1,2,\ldots\) )和 \(m\) 是正整数乘数。或者,这两个列表 \(x_{{k}}\)\(p\left(x_{{k}}\right)\) 可以直接提供,在这种情况下,内部建立字典以评估概率并生成随机变量。

概率质量函数(PMF)

随机变量X的概率质量函数被定义为随机变量具有特定值的概率。

\[P\Left(x_{k}\Right)=P\Left [X=x_{{k}}\right]\]

这有时也称为概率密度函数,尽管从技术上讲

\[f\left(x\right)=\sum_{k}p\left(x_{k}\right)\delta\left(x-x_{k}\right)\]

是离散分布的概率密度函数 1

1

XXX:未知布局普通布局:请注意,我们将使用 \(p\) 表示概率质量函数和参数(XXX:概率)。从上下文来看,用法应该是显而易见的。

累积分布函数(CDF)

累积分布函数为

\[F\Left(x\Right)=P\Left [X\leq x\right] =\sum_{x_{k}\leq x}p\Left(x_{k}\Right)\]

并且对能够计算也很有用。请注意,

\[F\left(x_{k}\right)-F\left(x_{k-1}\right)=p\left(x_{k}\right)\]

生存函数

生存函数就是

\[S\Left(x\Right)=1-F\Left(x\Right)=P\Left [X>k\right]\]

随机变量严格大于 \(k\)

百分比点函数(逆CDF)

百分点数函数是累积分布函数的反函数,并且

\[G\Left(Q\Right)=F^{-1}\Left(Q\Right)\]

对于离散分布,必须在没有 \(x_{{k}}\) 这样一来, \(F\left(x_{{k}}\right)=q.\) 在这种情况下,我们选择 \(G\left(q\right)\) 是最小的值 \(x_{{k}}=G\left(q\right)\) 为此, \(F\left(x_{{k}}\right)\geq q\) 。如果 \(q=0\) 然后我们定义 \(G\left(0\right)=a-1\) 。该定义允许以与连续RV相同的方式定义随机变量,使用均匀分布上的逆CDF来生成随机变量。

逆生存函数

逆生存函数是生存函数的逆

\[Z\left(\alpha\right)=S^{-1}\left(\alpha\right)=G\left(1-\alpha\right)\]

因此是最小的非负整数 \(k\) 为此, \(F\left(k\right)\geq1-\alpha\) 或最小非负整数 \(k\) 为此, \(S\left(k\right)\leq\alpha.\)

危险函数

如果需要,可以将危险函数和累积危险函数定义为

\[h\left(x_{k}\right)=\frac{p\left(x_{k}\right)}{1-F\left(x_{k}\right)}\]

\[h\Left(x\Right)=\SUM_{x_{k}\leq x}h\Left(x_{k}\Right)=\SUM_{x_{k}\leq x}\frac{F\left(x_{k}\right)-F\left(x_{k-1}\right)}{1-F\left(x_{k}\right)}.\]

时刻

非中心矩是使用PDF定义的

\[\mu_{m}^{\prime}=E\left [X^{{m}}\right] =\sum_{k}x_{k}^{m}p\left(x_{k}\right).\]

中心矩的计算方法类似 \(\mu=\mu_{{1}}^{{\prime}}\)

\BEGIN{eqnarray [}} \mu_{{m}}=E\left[\left(X-\mu\right)^{{m}}\right] & = & \sum_{{k}}\left(x_{{k}}-\mu\right)^{{m}}p\left(x_{{k}}\right)\\ & = & \sum_{{k=0}}^{{m}}\left(-1\right)^{{m-k}}\left(\begin{{array}}{{c}} m\\ k\end{{array}}\right)\mu^{{m-k}}\mu_{{k}}^{{\prime}}\end{{eqnarray] }

平均值是第一个时刻

\[\mu=\mu_{1}^{\prime}=E\left [X\right] =\sum_{k}x_{k}p\Left(x_{k}\Right)\]

方差是第二个中心矩

\[\mu_{2}=E\left[\left(X-\mu\right)^{2}\right]=\sum_{x_{k}}x_{k}^{2}p\left(x_{k}\right)-\mu^{2}.\]

偏度定义为

\[\gamma_{1}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

而(费舍尔)峰度是

\[\Gamma_{2}=\frac{\MU_{4}}{\MU_{2}^{2}}-3,\]

所以正态分布的峰度为零。

矩母函数

矩母函数定义为

\[M_{X}\left(t\right)=E\left[e^{Xt}\right]=\sum_{x_{k}}e^{x_{k}t}p\left(x_{k}\right)\]

矩可以作为在以下位置求值的矩母函数的导数 \(0.\)

拟合数据

为了将数据拟合到分布中,最大似然函数是很常见的。或者,一些分布具有众所周知的最小方差无偏估计。默认情况下将选择这些参数,但似然函数始终可用于最小化。

如果 \(f_{{i}}\left(k;\boldsymbol{{\theta}}\right)\) 是随机变量的PDF,其中 \(\boldsymbol{{\theta}}\) 是参数的向量( e.g. \(L\)\(S\) ),则用于 \(N\) 从这个分布中独立样本,联合分布随机向量 \(\mathbf{{k}}\)

\[f\left(\mathbf{k};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f_{i}\left(k_{i};\boldsymbol{\theta}\right).\]

参数的最大似然估计 \(\boldsymbol{{\theta}}\) 是使此函数最大化的参数 \(\mathbf{{x}}\) 由数据固定和给定的:

\BEGIN{eqnarray *}} \hat{{\boldsymbol{{\theta}}}} & = & \arg\max_{{\boldsymbol{{\theta}}}}f\left(\mathbf{{k}};\boldsymbol{{\theta}}\right)\\ & = & \arg\min_{{\boldsymbol{{\theta}}}}l_{{\mathbf{{k}}}}\left(\boldsymbol{{\theta}}\right).\end{{eqnarray* }

哪里

\BEGIN{eqnarray *}} l_{{\mathbf{{k}}}}\left(\boldsymbol{{\theta}}\right) & = & -\sum_{{i=1}}^{{N}}\log f\left(k_{{i}};\boldsymbol{{\theta}}\right)\\ & = & -N\overline{{\log f\left(k_{{i}};\boldsymbol{{\theta}}\right)}}\end{{eqnarray* }

平均值的标准记法

我们将使用

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

哪里 \(N\) 应该从上下文中看得很清楚。

组合

请注意,

\[k!=k\cdot\left(k-1\right)\cdot\left(k-2\right)\cdot\cdots\cdot1=\Gamma\left(k+1\right)\]

并有特殊情况下的

\BEGIN{eqnarray *}} 0! & \equiv & 1\\ k! & \equiv & 0\quad k<0\end{{eqnarray* }

\[\begin{split}\Left(\Begin{数组}{c}n\\k\end{array}\right)=\frac{n!}{\left(n-k\right)!k!}.\end{split}\]

如果 \(n<0\)\(k<0\)\(k>n\) 我们定义 \(\left(\begin{{array}}{{c}} n\\ k\end{{array}}\right)=0\)

中的离散分布 scipy.stats