地理信息系统的数据质量

地理信息系统是一个基于计算机软件、硬件和数据的集成系统,该系统主要通过空间及非空间数据的操作,实现空间检索、编辑及分析功能。在GIS的几个主要因素中,数据是一个极为重要的因素。在计算机软件、硬件环境选定之后,GIS中数据质量的优劣,决定着系统分析质量以及整个应用的成败。GIS提供的空间数据的分析方法被广泛用于各种领域,用于决策领域的数据,其质量要求应该是可知的或可预测的。

数据质量的基本概念

准确性(Accuracy)

即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。

精度(Precision)

即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标不可能依赖于比0.1mm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分之一的地方是以mm表示的。

空间分辨率(Spatial Resolution)

分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。

比例尺(Scale)

比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象。

误差(Error)

定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。

不确定性(Uncertainty)

地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在GIS中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。

空间数据质量问题的来源

从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数据质量问题的来源。

空间现象自身存在的不稳定性

空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。

空间现象的表达

数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免。

空间数据处理中的误差

在空间数据处理过程中,容易产生的误差有以下几种:

投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。

地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。

数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。

数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。

建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。

与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。

数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。

数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。

数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。

数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。

空间数据使用中的误差

在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导致数据用户对数据的随意性使用而使误差扩散。

表5-1:数据的主要误差来源

数据处理过程

误差来源

数据搜集

野外测量误差:仪器误差、记录误差

遥感数据误差:辐射和几何纠正误差、信息提取误差

地图数据误差:原始数据误差、坐标转换、制图综合及印刷

数据输入

数字化误差:仪器误差、操作误差

不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换

数据存储

数值精度不够

空间精度不够:每个格网点太大、地图最小制图单元太大

数据处理

分类间隔不合理

多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差

比例尺太小引起的误差

数据输出

输出设备不精确引起的误差

输出的媒介不稳定造成的误差

数据使用

对数据所包含的信息的误解

对数据信息使用不当

常见空间数据的误差分析

GIS中的误差是指GIS中数据表示与其现实世界本身的差别。数据误差的类型可以是随机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻辑误差,因此下面主要讨论逻辑误差和几何误差。

误差的类型

1)逻辑误差

数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的逻辑性检查入手。如图5-4所示,其中桥或停车场等与道路是相接的,如果数据库中只有桥或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整。

../../_images/img_114.png

图5-4:各种逻辑误差

2)几何误差

由于地图是以二维平面坐标表达位置,在二维平面上的几何误差主要反映在点和线上。

(2.1)点误差

关于某点的点误差即为测量位置(x,y)与其真实位置(x0,y0)的差异。真实位置的测量方法比测量位置的要更加精确,如在野外使用高精度的GPS方法得到。点误差可通过计算坐标误差和距离的方法得到。坐标误差定义为:

Δx=x-x:sub:`0`

Δy=y-y:sub:`0`

为了衡量整个数据采集区域或制图区域内的点误差,一般抽样测算(Δx,Δy)。抽样点应随机分布于数据采集区内,并具有代表性。这样抽样点越多,所测的误差分布就越接近于点误差的真实分布。

(2.2)线误差

线在地理信息系统数据库中既可表示线性现象,又可以通过连成的多边形表示面状现象。第一类是线上的点在真实世界中是可以找到的,如道路、河流、行政界线等,这类的线性特征的误差主要产生于测量和对数据的后处理;第二类是现实世界中找不到的,如按数学投影定义的经纬线、按高程绘制的等高线,或者是气候区划线和土壤类型界限等,这类线性特征的线误差及在确定线的界限时的误差,被称为解译误差。解译误差与属性误差直接相关,若没有属性误差,则可以认为那些类型界线是准确的,因而解译误差为零。

另外,线分为直线、折线、曲线与直线混合的线(图5-5)。GIS数据库中用两种方法表达曲线、折线,图5-6对这两类误差作了对照。

../../_images/img_26.jpg

图5-5:各种线(直线、折线、曲线)

../../_images/img_37.png

折线和曲线的误差

线误差分布可以用Epsilon带模型来描述,它由沿着一条线以及两侧定宽的带构成,真实的线以某一概率落于Epsilon带内。Epsilon带是等宽的(类似于后面讲述的缓冲区,不过其意义不同),在此基础上,误差带模型被提出,与Epsilon带模型相比,它在中间最窄而在两端较宽。基于误差带模型,可以把直线与折线误差分布的特点分别看作是“骨头型”或者“车链型”的误差分布带模式(图5-7)。

../../_images/img_46.png

折线误差的分布

对于曲线的误差分布或许应当考虑“串肠型模式”(图5-8)。

../../_images/img_53.png

曲线的误差分布

地图数据的质量问题

地图数据是现有地图经过数字化或扫描处理后生成的数据。在地图数据质量问题中,不仅含有地图固有的误差,还包括图纸变形、图形数字化等误差。

  1. 地图固有误差:是指用于数字化的地图本身所带有的误差,包括控制点误差、投影误差等。由于这些误差间的关系很难确定,所以很难对其综合误差作出准确评价。如果假定综合误差与各类误差间存在线性关系,即可用误差传播定律来计算综合误差。

  2. 材料变形产生的误差:这类误差是由于图纸的大小受湿度和温度变化的影响而产生的。温度不变的情况下,若湿度由0%增至25%,则纸的尺寸可能改变1.6%;纸的膨胀率和收缩率并不相同,即使湿度又恢复到原来的大小,图纸也不能恢复原有的尺寸,一张6英寸的图纸因湿度变化而产生的误差可能高达0.576英寸。在印刷过程中,纸张先随温度的升高而变长变宽,又由于冷却而产生收缩。

  3. 图象数字化误差:数字化方式主要有跟踪数字化和扫描数字化两种。跟踪数字化一般有点方式和流方式两种工作方式,前者在实际工作中使用较多,后者进行数字化所产生的误差要比前者大得多。

不同数据录入方式对数据质量的影响

跟踪数字化:

影响其数据质量的因素主要有:数字化要素对象、数字化操作人员、数字化仪和数字化操作。其中,数字化要素对象:地理要素图形本身的高度、密度和复杂程度对数字化结果的质量有着显著影响,如粗线比细线更易引起误差,复杂曲线比平直线更易引起误差,密集的要素比稀疏的要素更易引起误差等;数字化操作人员:数字化操作人员的技术与经验不同,所引入的数字化误差也会有较大的误差,这主要表现在最佳采点点位的选择、十字丝与目标重叠程度的判断能力等方面,另外,数字化操作人员的疲劳程度和数字化的速度也会影响数字化的质量;数字化仪的分辨率和精度对数字化的质量有着决定性的影响;数字化操作方式也会影响到数字化数据的质量,如曲线采点方式(流方式或点方式)和采点密度等。

扫描数字化:

扫描数字化采用高精度扫描仪将图形、图象等扫描并形成栅格数据文件,再利用扫描矢量化软件对栅格数据文件进行处理,将它转换为矢量图形数据。矢量化过程有两种方式:即交互式和全自动。影响扫描数字化数据质量的因素包括原图质量(如清晰度)、扫描精度、扫描分辨率、配准精度、校正精度等。

遥感数据的质量问题

遥感数据的质量问题,一部分来自遥感仪器的观测过程,一部分来自遥感图象处理和解译过程。遥感观测过程本身存在着精确度和准确度的限制,这一过程产生的误差主要表现为空间分辨率、几何畸变和辐射误差,这些误差将影响遥感数据的位置和属性精度。遥感图像处理和解译过程,主要产生空间位置和属性方面的误差。这是由图像处理中的影像或图像校正和匹配以及遥感解译判读和分类引入的,其中包括混合像元的解译判读所带来的属性误差。

测量数据的质量问题

测量数据主要指使用大地测量、GPS、城市测量、摄影测量和其他一些测量方法直接量测所得到的测量对象的空间位置信息。这部分数据质量问题,主要是空间数据的位置误差。空间数据的位置通常以坐标表示,空间数据位置的坐标与其经纬度表示之间存在着某误差因素,由于这种误差因素无法排除,一般也不作为误差考虑。测量方面的误差通常考虑的是系统误差、操作误差和偶然误差。

系统误差的发生与一个确定的系统有关,它受环境因素(如温度、湿度和气压等)、仪器结构与性能以及操作人员技能等方面的因素综合影响而产生。系统误差不能通过重复观测加以检查或消除,只能用数字模型模拟和估计。

操作误差是操作人员在使用设备、读书或记录观测值时,因粗心或操作不当而产生的。应采用各种方法检查和消除操作误差。一般地,操作误差可通过简单的几何关系或代数检查验证其一致性,或通过重复观测检查并消除操作误差。

偶然误差是一种随机性的误差,由一些不可测和不可控的因素引入。这种误差具有一定的特征,如正负误差出现频率相同、大误差少、小误差多等。偶然误差可采用随机模型进行估计和处理。

空间数据质量控制

数据质量控制是个复杂的过程,要控制数据质量应从数据质量产生和扩散的所有过程和环节入手,分别用一定的方法减少误差。空间数据质量控制常见的方法有:

传统的手工方法

质量控制的人工方法主要是将数字化数据与数据源进行比较,图形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比或其他比较方法。

元数据方法

数据集的元数据中包含了大量的有关数据质量的信息,通过它可以检查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的状况和变化。

地理相关法

用空间数据的地理特征要素自身的相关性来分析数据的质量。如从地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等高线两层数据时,如河流的位置不在等高线的外凸连线上,则说明两层数据中必有一层数据有质量问题,如不能确定哪层数据有问题时,可以通过将它们分别与其它质量可靠的数据层叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间数据层之间地理特征要素的相关分析之用。