空间统计分类分析

多变量统计分析主要用于数据分类和综合评价。数据分类方法是地理信息系统重要的组成部分。一般说地理信息系统存储的数据具有原始性质,用户可以根据不同的实用目的,进行提取和分析,特别是对于观测和取样数据,随着采用分类和内插方法的不同,得到的结果有很大的差异。因此,在大多数情况下,首先是将大量未经分类的数据输入信息系统数据库,然后要求用户建立具体的分类算法,以获得所需要的信息。

综合评价模型是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型,因为绝大多数地理现象难以用精确的定量关系划分和表示,因此模糊的模型更为实用,结果也往往更接近实际。综合评价一般经过四个过程:

  1. 评价因子的选择与简化;

  2. 多因子重要性指标(权重)的确定;

  3. 因子内各类别对评价目标的隶属度确定;

  4. 选用某种方法进行多因子综合。

分类和评价的问题通常涉及大量的相互关联的地理因素,主成分分析方法可以从统计意义上将各影响要素的信息压缩到若干合成因子上,从而使模型大大地简化;因子权重的确定是建立评价模型的重要步骤,权重正确与否极大地影响评价模型的正确性,而通常的因子权重确定依赖较多的主观判断,层次分析法是综合众人意见,科学地确定各影响因子权重的简单而有效的数学手段。隶属度反映因子内各类别对评价目标的不同影响,依据不同因子的变化情况确定,常采用分段线性函数或其它高次函数形式计算。常用的分类和综合的方法包括聚类分析和判别分析两大类。聚类分析可根据地理实体之间影响要素的相似程度,采用某种与权重和隶属度有关的距离指标,将评价区域划分若干类别;判别分析类似于遥感图像处理的分类方法,即根据各要素的权重和隶属度,采用一定的评价标准将各地理实体判归最可能的评价等级或以某个数据值所示的等级序列上;分类定级是评价的最后一步,将聚类的结果根据实际情况进行合并,并确定合并后每一类的评价等级,对于判别分析的结果序列采用等间距或不等间距的标准划分为最后的评价等级。

下面简要介绍分类评价中常用的几种数学方法。

主成分分析(Principal Component Analysis,PCA)

地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,同时也增加了运算的复杂性。为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。由于地理变量中许多变量通常都是相互关联的,就有可能按这些关联关系进行数学处理达到简化数据的目的。主成分分析是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。

设有n个样本,户个变量。将原始数据转换成一组新的特征值——主成分,主成分是原变量的线性组合且具有正交特征。即将x:sub:`1`,x:sub:`2`,…,x:sub:`p`综合成m(m<p)个指标z:sub:`1`,z:sub:`2`,…,z:sub:`m`,即:

z:sub:`1`=l:sub:`11`*x:sub:`1`+l:sub:`12`*x:sub:`2`+…+l:sub:`1p`*x:sub:`p`

z:sub:`2`=l:sub:`21`*x:sub:`1`+l:sub:`22`*x:sub:`2`+…+l:sub:`2p`*x:sub:`p`

… …

z:sub:`m`=l:sub:`m1`*x:sub:`1`+l:sub:`m2`*x:sub:`2`+…+l:sub:`mp`*x:sub:`p`

这样决定的综合指标z:sub:`1`z:sub:`2`,…,z:sub:`m`分别称做原指标的第一,第二,…,第m主成分。其中z:sub:`1`在总方差中占的比例最大,其余主成分z:sub:`2`z:sub:`3`,…,z:sub:`m`的方差依次递减。在实际工作中常挑选前几个方差比例最大的主成分,这样既减少了指标的数目,又抓住了主要矛盾,简化了指标之间的关系。

从几何上看,确定主成分的问题,就是找p维空间中椭球体的主轴问题,就是得到即将x:sub:`1`,x:sub:`2`,…,x:sub:`p`的相关矩阵中m个较大特征值所对应的特征向量,通常用雅可比(Jacobi)法计算特征值和特征向量。

很显然,主成分分析这一数据分析技术是把数据减少到易于管理的程度,也是将复杂数据变成简单类别便于存储和管理的有力工具。

层次分析法

层次分析(Analytic Hierarchy Process,AHP)法是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。事实上这是一种定性和定量分析相结合的方法。在模型涉及大量相互关联、相互制约的复杂因素的情况下,各因素对问题的分析有着不同的重要性,决定它们对目标重要性的序列,对建立模型十分重要。

AHP方法把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,利用数学方法综合专家意见给出各层次各要素的相对重要性权值,作为综合分析的基础。

系统聚类分析

系统聚类是根据多种地学要素对地理实体进行划分类别的方法,对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。

系统聚类的步骤一般是根据实体间的相似程度,逐步合并若干类别,其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。

判别分析

判别分析与聚类分析同属分类问题,所不同的是,判别分析是预先根据理论与实践确定等级序列的因子标准,再将待分析的地理实体安排到序列的合理位置上的方法,对于诸如水土流失评价、土地适宜性评价等有一定理论根据的分类系统定级问题比较适用。

判别分析依其判别类型的多少与方法的不同,可分为两类判别、多类判别和逐步判别等。

通常在两类判别分析中,要求根据已知的地理特征值进行线性组合,构成一个线性判别函数Y,即:

Y= c:sub:`1`*x:sub:`1`+c:sub:`2`*x:sub:`2`+…+c:sub:`m`*x:sub:`p`

式中,c:sub:`k`(k=1,2,…,m)为判别系数,它可反映各要素或特征值作用方向、分辨能力和贡献率的大小。只要确定了c:sub:`k`,判别函数Y也就确定了。在确定判别函数后,根据每个样本计算判别函数数值,可以将其归并到相应的类别中。常用的判别分析有距离判别法、Bayes最小风险判别、费歇准则判别等等。

1

* 关于多边形叠加将在下面章节论述。

2

* 在图数据结构中称为“弧”。