小样本问题

Python与开源GIS

小样本问题

2016-11-07 作者: xuzhiping 浏览: 1682 次

摘要: 小样本问题 小样本问题 众所周知,统计方法常常被用于处理工程问题中的观测样本。例如,用线性回归法,我们就可以得到震中烈度J和震级M之间的关系,即线性关系 I=aM+b 式中,a和6为常数,它们可以用一个地震区域(也称为地震带)的地震观测记录计算出来。如...

小样本问题

众所周知,统计方法常常被用于处理工程问题中的观测样本。例如,用线性回归法,我们就可以得到震中烈度J和震级M之间的关系,即线性关系

I=aM+b

式中,a和6为常数,它们可以用一个地震区域(也称为地震带)的地震观测记录计算出来。如果这个线性关系可以准确地表达地震带内I和M的内在关系,那么它在地震工程中将会有很大用处。一个统计结果是否有效,一般来说取决于两个条件:①依假设而给出的形式化统计公式是否正确?②供统计使用的样本是否足够大?如果假设公式正确,而且样本足够大,那么相应的统计结果就是有效的;否则将是无效的。

虽然有很多工具可以验证一个假设是否正确,但是在我们研究一个复杂的非线性系统的时候,要找到一个合理的假设公式是很困难的。例如,许多研究都表明,要找到一个假设公式来表示关于烈度I的震害面积S和震级M之间的关系是不可能的。总的来说,如果所给的样本较大(样本点超过30个),而且假设正确,那么人们就可以得到一个较好的统计结果。样本越大,统计结果越精确。但是,在许多情况下,很难找到正确的假设和足够大的样本。例如,在地震工程中,除了地震构造结构的非线性问题导致寻找假设公式的困难外,我们还知道破坏性地震是发生概率很小的低频事件,因此,一个不大的地震区域内的中强地震的观察样本容量一般都很小,除非我们收集了所有的地震记录(有大量的小震级观测值)或者扩展了地域的局限。

众所周知,小震级地震在一个地震区域内发生的频率很高,这使得我们能得到的样本的主要部分都是由小震级地震组成的。当我们用这样的一个所谓大样本来支持统计模型的时候,我们不可能发现任何由破坏性地震控制的规则。很明显,从一个大区域收集到的地震记录所组成的样本将不能体现地震构造结构对局部地区地震的影响。这种统计结果的工程价值并不大。

假设X是这样一个样本,它将被用来支持一个数学模型以发现某种因素间的关系。如果X很小,那么依据它用传统概率统计方法找到的关系将是无效的,这就称为小样本问题。在参数统计理论中,当一个样本很小时,估计参数和总体参数之间的误差就会很大。这也称为小样本问题。区间估计法被用来缓解小样本问题可能带来的麻烦,它其实是对一个统计量的可信度进行标注。但是,在很多情况下,工程师们感兴趣的是一个更精确的估计量,而不是对这个估计量精确与否给予标注。如果数据是由重复进行同种类型的随机实验得来的,那么就可以使用以往的历史经验,对现有样本的估计加以改进。这就是贝叶斯方法的基本思想。然而,在许多情况下,根本没有小样本以外的历史经验,贝叶斯方法失效。信息扩散技术或许是处理小样本问题的更好方法。为引人此技术,我们先介绍信息矩阵概念。

关注“开源集思”公众号
获取免费资源

随机推荐


Copyright © 2014-2019 OSGeo中国中心 吉ICP备05002032号

Powered by TorCMS

OSGeo 中国中心 邮件列表

问题讨论 : 要订阅或者退订列表,请点击 订阅

发言 : 请写信给: osgeo-china@lists.osgeo.org