6.6. 元数据

信息社会的发展,导致社会各行各业对详实、准确的各种数据的需求量迅速增加以及数据库的大量出现。对不同类型数据,要求数据的内容、格式、说明等符合一定的规范和标准,以利于数据的交换、更新、检索、数据库集成以及数据的二次开发利用等,而这一切都离不开元数据(Metadata)。对空间数据的有效生产和利用,要求空间数据的规范化和标准化。例如,各应用领域的数据库不但要提供空间和属性数据,还应该包括大量的引导信息以及由纯数据得到的推理、分析和总结等,这些都是由空间数据的元数据系统实现的。

6.6.1. Metadata的定义及其作用

对于空间元数据标准内容的研究,目前国际上主要有欧洲标准化委员会(CEN/TC 287)、美国联邦地理委员会(FGDC)和国际标准化组织地理信息/地球信息技术委员会(ISO/TC 211)三个组织在进行。

关于空间元数据的定义,欧洲标准化委员会CEN/TC 287认为空间元数据是“描述地理信息数据集内容、表示、空间参考、质量以及管理的数据”,而美国联邦地理数据委员会FGDC和国际标准化组织地理信息/地球信息委员会ISO/TC 211则认为:空间元数据是“关于数据的内容、质量、条件以及其它特征的数据”。

总的来说,空间元数据是“关于数据的数据”,它在地理信息中用于描述地理数据集的内容、质量、表达方式、空间参考、管理方式以及数据集的其它特征,它是实现地理空间信息共享的核心标准之一。

地理空间元数据与数据字典的主要区别在于:元数据是对关于数据集本身及其内容的全面分层次规范化的描述,且任何数据集的元数据描述格式和内容都是相同的,因而可以用相同的管理系统对所有数据集的元数据进行管理和维护;而数据字典只是描述数据集中的部分内容,且没有统一的规范和标准,不同数据集生产者只是根据不同需求对数据集内容作出描述或说明,因此不可用相同的管理系统进行统一的管理和维护。

空间元数据主要有下列几个方面的作用(NSDI,1998;李琦,2001):

(1)用来组织和管理空间信息,并挖掘空间信息资源,这正是数字地球的特点和优点所在。通过它可以在Internet上准确地识别、定位和访问空间信息。

(2)帮助数据所有者查询所需空间信息。比如,它可以按照不同的地理区间、指定的语言以及具体的时间段来查找空间信息资源。

(3)维护和延续一个机构对数据的投资。空间元数据可以确保一个机构对数据投资的安全。空间数据集建立后,随着机构中人员的变换以及时间的推移,后期接替该工作的人员会对先前的数据了解甚少或一无所知,这样便对先前数据的可靠性产生质疑,而通过空间元数据内容,则可以充分描述数据集的详细情况。同样,当用户使用数据引起矛盾时,数据提供单位也可以利用空间元数据维护其利益。

(4)用来建立空间信息的数据目录和数据交换中心。数字地球中包含着各行各业的不同内容的信息,诸如农业、林业、交通、水利等许许多多专题信息,然而很少有一个组织产生的数据可能对其它组织也有用,而通过数据目录、数据代理机、数据交换中心等提供的空间元数据内容,用户便可以方便地得到符合自己要求的地理空间数据,并很容易地使用它们,从而它已成为实现地理空间信息跨部门、跨行业和跨区域共享的有效解决途径之一。当然,要想真正实现空间信息的全球共享,还涉及到处理空间信息的软件系统、空间信息的软件模型和数据格式以及国家的政策法规等。

(5)提供数据转换方面的信息。在未来的空间信息中,均应当包含空间元数据信息,以便使用户在获取包含空间信息数据集的同时就可以得到空间元数据信息。通过空间元数据,人们便可以接受并理解数据集,且可以与自己的空间信息集成在一起,进行不同方面的分析决策,使地理信息空间信息实现真正意义上的共享,发挥其最大的应用潜力。

目前对于地理空间元数据的应用需求主要集中在目录、历史记录、地理空间数据集内部以及可读性等4个方面。其具体的实施应用,关键是在获取和整理地理空间数据的同时,要严格按照地理空间元数据的标准规范,建立该数据集的元数据和建立相应的元数据管理系统,并向上一级数据交换中心提供该数据集的元数据标准规范。

6.6.2. Metadata的分类

按照Metadata所描述的数据内容,Metadata可分为数据系列Metadata、数据集Metadata、要素类型和要素实例Metadata、属性类型和属性实例Metadata(如图6-22所示)。

../_images/image00114.gif

                     图6-22 Metadata类别结构图

1.数据集系列Metadata

数据集系列Metadata是指一系列拥有共同主题、日期、分辨率以及方法等特征的空间数据系列或集合,它也是用户用于概括性查询数据集的主要内容。通常,数据集系列的定义有数据集生产者具体定义,比如航空摄影时,飞机在一条航带上用同一摄影机和相同参数拍摄的一系列航片,或按照行政区划组成的国家资源环境数据库中的某一区域库等内容,都是组成数据集系列数据的数据集。

在软件实现上,如果拥有数据集系列Metadata模块,则既可以使数据集生产者方便地描述宏观数据集,而且也可以使用户很容易地查询到数据集的相关内容,以实现空间信息资源的共享。当然,要获取数据集的详细信息,还需通过数据集Metadata来实现。

2.数据集Metadata

数据集Metadata模块是整个Metadata标准软件的核心,它既可以作为数据集系列Metadata的组成部分,也可以作为后面数据集属性以及要素等内容的父代Metadata数据集系列。在Metadata软件标准设计的初级阶段,通过该模块便可以全面反映数据集的内容。当然随着数据集的变化,为避免重复记录Metadata元素内容以及保持Metadata元素的实时性,它便可通过继承关系仅仅只需更新变化了的信息,这时Metadata软件系统的层次性便显得异常重要。

3.要素类型和要素实例Metadata

要素类型在数据集内容中相对比较容易理解,它是指由一系列几何对象组成的具有相似特征的集合,比如数据集中的道路层、植被层等,便是具体的要素类型。

要素实例或具体要素是具体的要素实体,它用于描述数据集中的典型要素,而且通过它可以直接获取有关具体地理对象的信息。该模块是Metadata体系中详细描述现实世界的重要组成部分,也是未来数字地球中走向多级分辨率查询的依据,比如武汉长江大桥便是一个具体要素。因此,我们通过数据集系列、数据集、要素类型等层次步骤,便可以逐级对地理世界进行描述,用户也可以按照这一步骤,沿网络获取详细的数据集内容信息。

4.属性类型和属性实例Metadata

属性类型是用于描述空间要素某一相似特征的参数,比如桥梁的跨度便是一个属性类型;属性实例则是要素实例的属性,比如某一桥梁穿越某一道路的跨度属性类型和属性实例是与要素类型和要素实例对应的模块,它们是地理数据集软件层次结构或继承关系的组成部分,也是Metadata软件系统的高级阶段内容。

6.6.3. Metadata的内容

描述空间信息的空间元数据内容按照部分、复合元素和数据元素来组织(如图6-23)。

空间元数据标准体系的内容具体分为8个基本内容部分和4个引用部分,共由12个部分组成,具体的标准化内容以及它们之间的相互关系如图6-24所示。

../_images/image00213.gif

                    图6-23 空间元数据内容组织示意图

空间元数据标准由两层组成,其中第一层是目录层,它提供的空间元数据复合元素和数据元素是数字地球中查询空间信息的目录信息,它相对概括了第二层中的一些选项信息,是空间元数据体系内容中比较宏观的信息;第二层是空间元数据标准的主体,它由8个标准部分和4个引用部分组成,包括了全面描述地理空间信息的必选项、条件可选项、以及可选项的内容。

下面对元数据本身及其组成地理空间元数据的各个部分做较为详细的说明。

1.空间元数据

空间元数据是关于数据集内容、质量、表示方式、空间参考、管理方式以及数据集的其它特征的数据,它位于整个标准体系的最上段,属于复合元素,由两个层次组成。

在构成空间元数据标准内容的两个层次中,第一层目录信息主要用于对数据集信息进行宏观描述,它适合在数字地球的国家级空间信息交换中心或区域以及全球范围内管理和查询空间信息时使用。第二层则作为详细或全面描述地理空间信息的空间元数据标准内容,是数据集生产者在提供数据集时必须提供的信息。

../_images/image0038.gif

                图6-24 空间元数据内容标准的组织框架

2.标准部分

标准部分有8个内容,它们分别是:

(1)标识信息 是关于地理空间数据集的基本信息。通过标识信息,数据集生产者可以对有关数据集的基本信息进行详细的描述,诸如描述数据集的名称、作者信息、所采用的语言、数据集环境、专题分类、访问限制等,同时用户也可以根据这些内容对数据集有一个总体的了解。

(2)数据质量信息 是对空间数据集质量进行总体评价的信息。通过这部分内容,用户可以获得有关数据集的几何精度和属性精度等方面的信息,也可以知道数据集在逻辑上是否一致,以及它的完备性如何,这是用户对数据集进行判断,以及决定数据集是否满足他们需求的主要判断依据。数据集生产者也可以通过这部分对数据集的质量评价方法和过程进行详细的描述。

(3)数据集继承信息 是建立该数据集时所涉及的有关事件、参数、数据源等的信息,以及负责这些数据集的组织机构信息。通过这部分信息便可以对建立数据集的中间过程有一个详细的描述,比如当一幅数字专题地图的建立经过了航片判读、清绘、扫描、数字地图编辑以及验收等过程时,应对每一过程有一个简要描述,使用户对数据集的建立过程比较了解,也使数据集生成的每一过程的责任比较清楚。

(4)空间数据表示信息 是数据集中表示空间信息的方式。它由空间表示类型、矢量空间表示信息、栅格空间表示信息、影像空间表示信息以及传感器波段信息等内容组成,它是决定数据转换以及数据能否在用户计算机平台上运行的必须信息。利用空间数据表示信息,用户便可以在获取该数据集后对它进行各种处理或分析了。

(5)空间参照系信息 是有关数据集中坐标的参考框架以及编码方式的描述,它是反映现实世界与地理数字世界之间关系的通道,诸如地理标识参照系统、水平坐标系统、垂直坐标系统以及大地模型等。通过空间参照系中的各元素,可以知道地理实体转换成数字对象的过程以及各相关的计算参数,使数字信息成为可以度量和决策的依据。当然,它的逆过程也是成立的,即可以由数字信息反映出现实世界的特征。

(6)实体和属性信息 是关于数据集信息内容的信息,包括实体类型、实体属性、属性值、域值等方面的信息。通过该部分内容,数据集生产者可以详细地描述数据集中各实体的名称、标识码以及含义等内容,也可以使用户知道各地理要素属性码的名称、含义以及权威来源等。

在实体和属性信息中,数据集生产者可以根据自己数据的特点,在详细描述和概括描述之间选择其一,以描述数据集的属性等特征。

(7)发行信息 是关于数据集发行及其获取方法的信息,包括发行部门、数据资源描述、发行部门责任、订购程序、用户订购过程以及使用数据集的技术要求等内容。通过发行信息,用户可以了解到数据集在何处,怎样获取、获取介质以及获取费用等信息。

(8)空间元数据参考信息 是有关空间元数据当前现状及其负责部门的信息,包括空间元数据日期信息、联系地址、标准信息、限制条件、安全信息、以及空间元数据扩展信息等内容,它是当前数据集进行空间元数据描述的依据。通过该空间元数据描述,用户便可以了解到所使用的描述方法的实时性等信息,从而加深了对数据集内容的理解。

3.引用部分

以下4部分内容作为地理空间元数据的引用部分,自己不单独使用,而是被标准(1~8)部分所引用。这4部分内容在整个元数据标准规范中多次重复出现,为了减少本标准规范的冗余度,增强组成规范的内容的层次性和独立性,所以对这4部分内容单独处理。在具体实现某一数据集的元数据时,该4部分内容会多次出现在标准(1~8)部分中。

(9)引用信息 是引用或参考该数据集所需要的简要信息,它自己从不单独使用,而是被标准内容部分有关元素引用。它主要由标题、作者信息、参考时间、版本等信息组成。

(10)时间范围信息 是关于有关事件的日期和时间的信息,该部分是引用标准内容部分有关元素时要用到的信息,它自己不单独使用。

(11)联系信息 是与数据集有关的个人和组织联系时所需要的信息,包括联系人的姓名、性别、所属单位等信息。该部分是引用标准内容部分有关元素时要用到的信息,它自己不单独使用。

(12)地址信息 是同组织或个人通讯的地址信息,包括邮政地址、电子邮件地址、电话等信息。该部分是描述有关地址元素的引用信息,它自己不单独使用。