摘要: 方差 方差是各个数据分别与其平均数之差的平方的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。 基本定义 设X是一个随机变...
方差
方差是各个数据分别与其平均数之差的平方的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。
基本定义
设X是一个随机变量,若\( E{[X-E(X)]2} \)存在,则称E{[X-E(X)]2}为X的方差,记为D(X),Var(X)或DX。
即D(X)=E{[X-E(X)]2}称为方差,而σ(X)=D(X)0.5(与X有相同的量纲)称为标准差(或均方差)。即用来衡量一组数据的离散程度的统计量。
方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大。否则,反之)
若X的取值比较集中,则方差D(X)较小,
若X的取值比较分散,则方差D(X)较大。
因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。数据波动
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
标准差
标准差(Standard Deviation) ,中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。
意义
标准计算公式假设有一组数值(皆为实数),其平均值为: 此组数值的标准差为:
样本标准差
在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。
从一大组数值当中取出一样本数值组合 ,常定义其样本标准差:
样本方差s是对总体方差σ的无偏估计。s中分母为n - 1,是因为s的自由度为n - 1 ,这是由于存在约束条件。
这里示范如何计算一组数的标准差。例如一群儿童年龄的数值为 { 5,6,8,9 } :
第一步,计算平均值
第二步,计算标准差