5.3. 空间数据的误差分析和校正

5.3.1. 空间数据的误差分析

在GIS应用过程中,GIS获取的是跟空间位置有关的图形、图像以及相关的专业属性等数据,经过系统的处理、查询、分析等操作后,得到各种用户所需要的图形、图像、图表和文字等结果(产品)。由于生产GIS结果的“原料”——GIS的原始录用数据本身包括着不可避免的误差,描述数据的模型也只能是客观实体的一种近似,并且GIS产品的“生产”过程中——各种空间操作、处理等又会引入新的误差或不确定性。因此,人们自然有理由要问:GIS产品的质量如何?GIS所输出的图表精度可靠性是多少?GIS综合分析、推理所得结论的精确度和可信度是多少?GIS原始录用数据中的误差和错误会不会严重干扰GIS对问题所作的结论?等等。用户在使用GIS解决具体问题的过程中,必须首先谨慎地弄清上述一系列问题,才能作出正确的决策。这一点,在以往的GIS设计中常常被忽视,使得由GIS生成的各种漂亮精美图件与其内在质量不相符合而导致决策失误。

GIS空间数据误差处理和分析就是针对上述背景而提出的研究课题,其核心是建立一套误差分析和处理理论体系。根据GIS数据误差研究的成果,未来的GIS应当在提供产品的同时,附带提供产品的质量指标,就像测量工作者在提供大地坐标时,同时提供坐标精度一样。

从应用角度看,GIS空间数据误差分析和处理的研究内容可概括为正演和反演两大问题。当GIS录入数据的误差和各种操作中引入误差已知时,计算GIS最终生成产品的误差大小和数值的过程是误差的正演问题。反之,根据用户对GIS产品所提出的误差限值要求,确定GIS录入数据误差和质量,则是误差的反演问题。显然,误差传播机制是解决正、反演问题的关键。

GIS数据误差的研究,对评价GIS产品的质量,确定GIS录用数据的标准,改善GIS的算法,减少GIS设计与开发的盲目性以及GIS的其它研究领域都有深远影响。

GIS数据误差研究的主要对象是GIS数据中固有误差和操作处理中产生的误差,研究内容为这些误差的性质、度量和传播。固有误差的来源和度量依赖于数据采集的直接法(指从野外直接进行数据采集)或间接法(指从地图等图件上进行数据采集)。因此,这方面的研究历史可追溯到GIS建立之前的大地测量、工程测量和摄影测量以及制图学中的经典误差理论。在GIS空间操作运算产生的误差方面,1969年,Frolov建立了一个估计拓扑匹配误差的公式。1975年,Switzer提出了一种估计从矢量到栅格数据转换精度的方法。1978年,Goodchild给出了检验多边形叠置过程中产生的无意义多边形统计量。1982年,Chrisman引入了著名的“ε—误差带”。1986年,Burrough对空间数据误差这一领域内的重要研究成果进行了总结。此外,Openshaw也是从事该方面研究的著名学者。还应当特别提到的是,早在1975年,MacDougall就用令人信服的例子说明了不考虑空间数据误差所带来的严重后果。

GIS误差问题真正受到重视还是从80年代末开始的。1988年12月由美国地理信息和分析中心(NCGIA)主持召开的专题讨论会,其宗旨就是为GIS空间数据误差研究拟定方向和立题。这是GIS误差理论研究史上的一个里程碑,标志着人们对GIS误差问题进行系统研究的开始。

1990年以前,GIS数据误差研究的重点集中在误差的来源分析、空间和非空间误差度量指标的建立以及由数据变换处理函数所引入误差的模拟等。这一时期的特点是没有在GIS环境下将误差传播模拟的众多内容联系起来,甚至有些研究是独立于GIS环境之外进行的, 这就是至今还没有能够进行误差处理分析的实用GIS原因之一。但可以深信,随着GIS数据误差问题各项研究的深入,预计将来的GIS将具备这一功能。

尽管GIS数据误差理论的研究内容繁多,但就目前来看,最有前途的发展方向可概括为下列7个:

1.建立误差分析体系

这个体系包括误差源的确定、误差的鉴别和度量方法、误差传播模型的建立以及控制和削弱误差对GIS产品影响的方法。传统的概率统计仍是建立误差分析体系的理论基础。但是,必须根据GIS操作运算的特点对经典的概率统计理论进行扩展和补充。

2.用敏感度分析法确定评价GIS产品质量的置信域

一般而言,精确确定GIS输入数据的实际误差非常困难。为了从理论上了解输出结果如何随输入数据误差的变化而变化,可以人为地在输入数据中加上扰动值来检验输出结果对这些扰动值的敏感程度。根据适合度分析,置信区间是衡量由输入数据误差引起输出结果变化的指标。目前应用最广泛的两种适合度分析是加权叠置和加权多维尺度变换。为了确定置信域,即敏感度,从这种研究中得到的并不是输出结果的真实误差,而是输出结果的变化范围。对于某些难以确定的误差,这种方法是行之有效的。在GIS中,敏感度检验一般有下面几种:地理敏感度、属性敏感度、面积敏感度、多边形敏感度和增删图层敏感度。敏感度分析是一种间接测定GIS产品可靠性的方法。

3.尺度不变空间分析法

地理数据的分析结果应与采用的空间坐标系统无关,即尺度不变空间分析,它包括比例不变和平移不变。在集合分析和建模过程中,当把面元作为空间数据采集单元时,为了保证在改变面元集合方式的情况下不影响分析结果,需要满足尺度不变条件。此外,若把空间集合看成空间滤波器时,用尺度不变空间分析法就可以严格地测定空间集合的影响程度。尺度不变是数理统计中常用的一个准则:一方面能保证用不同方法得到的结果一致;另一方面又可在同一尺度下合理地衡量估值的精度。

4.空间集合与分区法

在GIS分析中,常常把小区域看成面元,而一个大区域又由若干面元组成。这在城市规划和社会经济分析中是常见的。这种面元可以是正规的方格形,也可以是不规则的三角形。每个面元的大小是空间精度的一个函数,由此引入了一个用于处理空间数据误差或不确定性的基本方法。由于将面元看成是建立GIS空间数据误差模型的随机抽样点。因此,需要首先划分研究区域,然后对每个区或面元所包含的信息进行集合或综合抽象,而面元的大小和信息的综合方法又直接影响结果的精度。

5.空间数据误差的概念模式

我们可以把地理要素定义在空间(几何位置)、专题(属性)和时间三个维度中,每个维度的精度可由相应的误差大小来描述,例如,空间位置误差是由三维坐标精度来描述的,专题数据精度取决于数据的类型,它们常常与位置精度有关;在空间数据精度分析中常常被忽视的是时间精度,数据的可靠程度通常是时间的反函数,因为数据的空间属性和专题属性是随时间的变化而变化的。

空间数据误差的特点之一是多样性。数据质量包括6个主要部分:位置精度、属性精度、数据情况说明、逻辑一致性以及完整性和时间精度。位置精度和属性精度分别指精度的空间因素和专题因素。数据情况说明系指数据的来源、数据处理和编码方法以及对数据所进行的变换。逻辑一致性指数据编码关系的可靠性,包括拓扑、空间属性(例如同类多边形的边长和面积)以及专题属性的一致性。完整性是指描述数据库中目标以及目标的抽象概括之间的关系。总之,空间数据误差可以认为是由空间、专题和时间三个误差分量组成的。**

6.蒙特卡洛实验仿真

GIS处理过程中的空间数据误差传播模型是很复杂的。由于GIS数据来源繁多,种类复杂,既有描述空间拓朴关系的几何数据,也有描述空间物体内涵的属性数据。对于属性数据的精度常常只能用打分或不确定度来表示。对于不同的用户,由于专业领域的限制和需要,数据可靠性的评价标准并不相同。因此,想用一个简单的、固定不变的统计模型描述GIS误差传播规律似乎是不可能的。在对所研究问题的背景不十分了解的情况下,蒙特卡洛(Monte Carlo)模拟仿真是一种有效方法,它首先依据经验对数据误差的种类和分布模式进行假设,然后利用计算机进行模拟实验,将所得结果与实际结果进行比较,找出与实际结果最接近的模型。对于某些无法用数学表达式描述的过程,用这种方法既可得到实用公式,也可检验理论研究的正确性。

7.空间滤波

获取空间数据的方法可能是不同的,既可以采用连续方式采集,也可以采用离散方式。这些数据的采集过程又可以看成是随机采样,其中包含倾向性部分和随机性部分。前者代表所采集物体的形状信息,它可以是确定性参数,也可以是带有先验性质的信号;后者是由观测噪声引起的。

空间滤波分高通滤波和低通滤波。前者指从含有噪声的数据中分离提取噪声信息的过程;而后者指从数据中提取信号的过程。经高通滤波后可得到一个点(或线、面)的随机噪声场,然后按随机过程理论或方差-协方差分量估计理论求得数据采集误差。

5.3.2. 空间数据的误差校正

前节叙述的数据编辑处理,一般只能消除或减少在数字化过程中因操作产生的局部误差或明显差错,但因图纸变形和数字化过程的随机误差所产生的影响,必须经过几何校正。 从理论上讲,几何校正是根据图形的变形情况,计算出其校正系数,然后根据校正系数,校正变形图形。常用的几何校正方法有一次变换、二次变换以及高次变换,下面简单介绍它们。

1. 二次变换和高次变换

(公式5-2)

image1

这两种变换是实施地图内容转换的多项式拟合方法,它由多项式(5-2)表达。

式中x,y为变换前坐标,x′和y′为变换后的坐标;系数a,b是函数f1,f2的待定系数。

(公式5-3)

A和B代表三次以上高次项之和。上式是高次曲线方程,符合此方程的变换称为高次变换。若不考虑A和B,则上式为二次曲线方程(5-3)。

image3

符合上列二次曲线方程的变换为二次变换。这两种变换的实质是:制图资料上的直线经变换后,可能为二次曲线或高次曲线,它适用于原图有非线性变形的情况。

在二次变换中有5对未知数,理论上只要知道数字化原图上5个点的坐标及其相应的理论值,便可能算出a和b,从而建立起变换方程,完成几何校正的任务,即对数字化的地图的所有空间数据进行校正。实际应用时,可取多于5个点及其理论值,并用最小二乘法求解,可提高解算系数的精度。所选点的分布应能控制全图。

2.一次变换

image5

同素变换和仿射变换均为一次变换。

(公式5-4)

    (1) 同素变换是一种较复杂的一次变换形式,其函数式为公式(5-4)。

image7

其主要性质有:直线变换后仍为直线,但同一线段上长度比不是常数;平行线变换后为直线束;同一线束中经一割线的交叉比在变换前后保持不变;通过同一割线上相应各点的线束的交叉比在变换前后也保持不变。

(公式5-5)

    (2) 仿射变换是一种比较简单的一次变换,其表达式为公式(5-5)。

image8

式中3对待定系数,只要知道不在同一直线上的3个对应点坐标都可求得。实际应用时,往往利用4个以上对应点坐标和最小二乘方法求解变换系数,以提高变换精度。

仿射变换的特点是:直线变换后仍为直线;平行线变换后的仍为平行线,并保持简单的长度比;不同方向上的长度比发生变化。