4.4. 数据质量

质量本来就是一个难以捉模的概念。 空间数据质量是指空间数据可靠性和精度,通常用空间数据误差来度量。 人们往往认为,以计算机为基础的信息系统的数据质量是可靠的。 很少怀疑利用信息系统产生的分析结果在数据质量方面会有问题,但事实远非如此。 在某些情况下,由于多种原因,计算机分析结果甚至会比手工分析的误差更大。 这是除软件、硬件的质量,计算方法上的问题,以及分类、编码、输入、操作上的明显疏忽以外, 数据本身的质量也是重要的原因。 GIS主要功能之一是综合不同来源,不同分辨率和不同时间的数据,利用不同比例尺和数据模型进行操作分析, 这种不同来源数据的综合和比例尺的改变使GIS数据误差问题变得极为复杂。

4.4.1. 数据质量问题

微观方面数据质量问题

(1)定位精度

定位精度是指GIS的空间坐标数据与其真实的地面位置之间的误差。 这种误差主要有两种:第一种是偏差。 偏差是描述真实位置与表达位置偏移的距离。 可在地图上抽取某些要素,用这些要素在数据库中的坐标值和对应物体的实测坐标进行比较, 据此来判断偏移是否过大。 理想的偏差应为零,表明图上位置与实际位置没有系统偏差。 第二种是偏移的分布。 如果上述抽样点的偏移量在某些地方很小,另一些地方很大,则说明偏移的分布不均匀,数据质量不稳定。 如果各个点的偏移量都差不多,虽然总量并不很小,但分布比较均匀,这说明数据的质量还比较稳定。 位置精度常采用标准差和均方差来度量。

(2)属性精度

属性精度是指属于地理数据库中点、线、面的属性数据正确与否。 属性定义往往也会有误差,除人为因素外,还有技术因素,属性误差度量取决于数据的类型。 对于分类数据(如土地利用等级、植被类型、陆地覆盖层、土壤类型或行政管理分区等)的精度估算, 主要取决于分类精度估计。 分类精度的估计是一个复杂和持有争论的问题, 分类精度估计的困难主要是对精度具有有效影响的因素如分类数目、独立区域的形状和大小、测试点的选择方式、以及分类的彼此混类现象等不能很好确定。 分类精度估计常采用纯量精度指标或“分类误差矩阵”。 分类误差矩阵C是采样点属性的真值和估值所组成的表格, 其元素Cij代表被认为是i类但实际上是j类的点的数目,它是一种总体精度指标。 根据误差矩阵C可计算能描述属性误差的一系列纯量指标。 对于数字数据,一般不用由分类矩阵求出的误差指标,而用标准差和方差等。

(3)逻辑一致性

逻辑一致性是指数据之间要维护良好的逻辑关系。 例如森林的边界与道路的边界应当是不一样的,但制图时,往往只给出道路边界;行政境界与管理区域境界应严格一致; 对于水库的制图表达,不同时期的GIS数据层所表达的水库边界可能位置不同,虽然边界精度都很高, 但数据层之间具有逻辑不一致性。 在这种情况下,解决问题的办法是提供一个标准的水库的外围轮廓线, 每层数据水库水涯线的表达与标准水库边界线配准。

重要的是,要认识到两个数据集合不但要使它们的位置精度水平要一致,而且逻辑关系上也应当是一致的。 这是因为,同一边界,在两个数据集合中如果位置上存在微小不同,也许仍能满足位置精度水平的要求, 但当两个数据进行叠合时,这种微小差别会在缝隙处产生一个非常小的区域,称之为裂片。 有些GIS软件能够处理这种情况,在其中一种特征周围附加一个不确定的带区,当两种特征叠加时, 能够处理带区的叠加问题,就象不存在裂片一样(处理成不定带区的边界通常称为模糊边界)。

逻辑一致性没有量测标准。 虽然同一特征在位置上的不一致性是可以量测的,然而它们或许是具有逻辑一致关系的几种特征的组合体, 量测所有可能的叠加组合体的不一致性可能是不现实的。

逻辑一致性的检查最好是在数据输入GIS前就去做,在地图数字化的准备阶段和单幅图的数字化检查阶段进行, 必要时,可重绘该幅图进行逻辑一致性检查。

(4)分辨率

对于数字遥感图像、栅格型空间数据库,分辨率越高,象素就越小, 这就意味着每个度量单元具有较多的信息和潜在的细节,分辨率越低,就意味着象素越大, 每个度量单元的细节就越小,因而看起来有些粗糙。 如果能正确地处理分辨率,就可以通过提供合适的信息量和信息密度去模仿连续色调, 从而大大地改善对细节的显示,正确地选择分辨率还有助于确保数字化图像中的色调能忠实于原图像。 但在矢量数字化地图方面,人们往往会忽视分辨率的问题。 以为地图要素都以坐标方式储存起来后,可以任何比例输出。 但实际上还是有比例的,如:原始地图按1:10000要求输入时,比1米还短的线一般要忽略, 但是把数字化地图放大到1:500输出时,用户肯定认为太粗糙。 因此,矢量空间数据库的比例主要由分辨率和位置精度决定,必须在数据库设计阶段就定义好最小制图单位, 在数据输入时,小于最小制图单位的元素(主要是线段长度太短)不存入数据库,大于最小制图单位的元素则必须存入。 在实践中,采用手工数字化输入地图时,图纸的比例尺稍大一些容易保证输入的精度和分辨率。

对于专题图来说,例如土壤图、土地利用图以及其它类型分类图,分解力是指所表达的最小物体的大小, 称之为最小制图元。 如何确定图中表达的最小物体单元, 取决于地图的编辑过程、使用目的、可读性、原始数据精度、制图成本、信息的表达和存贮要求等。

在GIS中,信息的存贮和表达是矛盾的。 在GIS数据库中,地理数据可以以任意比例存贮,为满足输出的比例要求,可以增加标识和其它的地图细节描述。 在这种意义上,GIS地理数据库中的数据不能以特定的比例存贮,因此,最小制图单元应当设置得非常小。 甚至对于一个很大的分层区域也是如此。 对于输出的地图上的内容细节应该是根据输出的比例大小而选择。

宏观方面的数据质量问题

(1)完整性

数据完整性包括数据层的完整性、分类的完整性和检验完整性。

数据层的完整性是指所感兴趣的研究区域可用的数据组成部分的完整性。 这主要是指可能存在所要区域数据的不能100%覆盖或属性不完整等; 另一方面是由于研究区域内数据变化没有及时得到更新,造成数据的不完整。

数据分类的完整性主要是指如何选择分类才能表达数据。 某些分类常常导致数据重复或缺项等,如地质方面的数据库需要对岩石进行分类, 由于资料是从不同角度、用不同方法间接得到的,分类后可能在空间上相互重叠或有空白区域,因技术条件制约,常常无法肯定这些重叠区或空白区究竟属于哪一类岩石。

数据检验完整性主要指对野外数据测量成果和其它独立数据源数据的检验。 例如,地质学家用实线标注他们在野外直接证实的岩石类型,象这些边界线在实地也是可以看得见的。 用虚线或点线标注的用红外遥感推测的边界线,在地质遥感中应用的很广泛, 但在GIS中就没有标准的方法对此数据的准确性进行检验。 数据集合通常不提供这方面的信息。 因此,用户将无法知道不同的边界线和分类情况被检验的程度如何。 数据检验完整性或许要指明数据集合内地理特征的属性完整性如何, 也可能是以每幅图为单位,以表格形式表明所检验数据集合的类型和位置的情况。

(2)时间性

对于许多类型的地理信息来说,时间是一个严格的因素,任何研究项目所需的数据很难在同一时间收集齐全, 人口统计数据就具有非常敏感的时间性。 在使用现有的数据包括地图、报告、遥感数据、外业数据等,这些数据的获取时间各不相同, 有的过时了、有的按过去标准收集、有的不全等。 GIS数据收集和输入有相当长的过程,而外部世界无时无刻不在变化。 当把不同地点的数据联系起来进行对比分析时,某些地点的数据可能是某个历史时期, 而另一些地点的数据可能是另一个历史时期,这样就会有数据收集时间性差异。

(3)地域性

理想的情况应是整个研究区域或整个国家具有一致的数据,即同等精度、统一分类标准的数据覆盖整个区域。 但实际情况往往不是这样,资源数据的使用者经常发现某些必要的数据只有部分地区才有, 其余地区只有小比例尺地图提供的粗略数据,因而不得不重新收集。 由于定义和概念的变化以及地表自然变化等原因,使新老数据不相匹配。

(4)数据档案

资料的收集、输入、处理方法都会对数据质量产生影响,应该对整个过程有文档资料的记载和说明。 当用户对数据质量有怀疑时,可查看文档来判断误差产生的原因,或给予纠正。 每一数据源和处理方法都应有关于数据生产的误差水平方面的信息。 数据档案主要是指数据集合生产历史,原始数据以及处理这些数据所使用的处理步骤等。

4.4.2. 误差来源

所有空间信息都存在着误差。 空间信息的产生和使用每一步都有误差产生。 除了GIS原始数据本身带有误差外,在空间数据库中进行各种操作、转换和处理也将引入误差。 由一组测量结果通过转换处理产生另一种产品时,通常转换次数越多,则产品中引入新误差和不确定性也越多。 GIS产品的有效性和GIS本身的生命力与空间数据质量的研究的成效是密切相关的。 因此,要保证产品的质量,在GIS系统建立过程中,必须深刻了解每一个阶段,每一环节的误差来源, 并进行严格的质量监控,最大限度地减少误差。 在使用GIS过程中,数据误差来源可按数据所处的不同阶段划分(见表4-1)。

使用GIS过程中的误差来源

Fig. 4.5 使用GIS过程中的误差来源