11.1. 空间数据挖掘

11.1.1. 空间数据挖掘的概念

1.空间数据挖掘的概念

随着空间数据库技术的高速发展,人类积累了大量的空间数据,尤其是地理信息系统、遥感、医疗影像, 计算机辅助设计(CAD)、动植物生态领域等方面的广泛应用导致空间数据急剧地产生和增加, 如美国国家航空和宇宙航行局(National Aeronautics and pace Administration,NASA)对地观测系统(Earth Observing System,EOS)每天都要产生1TB空间数据; 中国建成的覆盖全国、全省的大型地理空间数据库和专题数据库的数据总量超过1250GB; 有关火灾数据、地形分布数据等等,都收集大量、数据类型和特征繁多的空间数据。 据统计:全球拥有的数据量每20个月翻一番,因此我们不仅拥有极其庞大的空间数据, 而且其空间数据类型越来越复杂、结构越来越多样。 日益丰富具有空间特征的数据在一定程度上已超出了人类大脑的分析能力,从而形成空间数据虽多, 但知识贫乏、用处不大的局面。 因此,迫切需要从这些空间数据中发现领域知识, 从而一个多学科、多领域综合交叉的新兴研究领域——空间数据挖掘(Spatial Data Mining)应运而生。

空间数据挖掘是指从空间数据库中提取用户感兴趣的空间模式与特征、 空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征。 简单地讲,空间数据挖掘是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、 规则和知识的过程(蒋良孝等,2003)。 它可以发现普遍的几何知识、空间分布规律、空间关联规则、空间分类规则、空间特征规则、空间区分规则、 空间演变规则等。 空间数据挖掘需要综合数据挖掘、空间数据库、空间信息学、计算机科学等技术。 它可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造, 空间数据库的充足和空间查询的优化。 空间数据挖掘总体可以分为空间关联规则技术、空间同位、空间离群技术、空间分类、时空序列等技术。 其在地理信息系统,地理市场(Geomarketing)、遥感、CAD、图像数据库探测、医学图像处理、导航、交通控制、 环境研究等许多使用空间数据领域中有广泛的应用。

2.空间数据挖掘的知识类型

数据挖掘中常见的知识有广义型(Generalization)、分类型(Classification)、 关联型(Association)和预测型(Prediction)四类,它们也同样适用于空间数据库。 为了便于理解和应用,空间数据挖掘知识类型可以划分得如下更加具体几种类型。

(1)普遍的几何知识

普遍的几何知识是指某类目标的数量、大小、形态特征等普遍的几何特征。 GIS空间数据库中的目标主要有点、线、面(多边形)三类。 用统计方法可容易地在GIS中直接获取各类目标的数量和大小,但GIS中并不直接存储形态特征, 需要运用专门的算法提取曲折度、方向、密集度等特征值,在此基础上归纳高水平的普遍几何特征。

(2)空间分布规律

空间分布规律是指目标在地理空间的分布规律,分成在垂直向、水平向以及垂直向和水平向的联合分布规律。 垂直向分布即地物沿高程带的分布,如植被沿高程带分布规律、植被沿坡度坡向分布规律等; 水平向分布指地物在平面区域的分布规律,如不同区域农作物的差异、公用设施的城乡差异等; 垂直向和水平向的联合分布即不同的区域中地物沿高程分布规律。

(3)空间关联规则

空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联规则。 例如,村落与道路相连,道路与河流的交叉处是桥梁等。 空间分布规律在本质上属于空间关联规则,它表达的是空间对象与空间位置和(或)高程的关联。

(4)空间聚类/分类规则

空间聚类/分类规则是指根据对象的空间或非空间特征将对象划分为不同类别的规则, 可用于GIS的空间概括和综合。 例如,将距离很近的散布的居民点聚类成居民区。 聚类和分类都是对空间对象的划分,划分的标准是类内差别最小而类间差别最大, 区别在于事先是否知道类别数和各类别的特征。

(5)空间特征规则

空间特征规则是指某类或几类空间目标的几何的和属性的普遍特征,即对共性的描述。 普遍的几何知识属于空间特征规则的一类。 如“宁夏的森林资源分布比较集中”描述宁夏森林资源的空间特征规则,也是普遍的几何知识。

(6)空间区分规则

空间区分规则是指两类或多类目标间几何的或属性的不同特征,即可以区分不同类目标的特征,是对个性的描述。

(7)空间演变规则

若空间数据库是时空数据库或空间数据库中存有同一地区多个时间数据的快照(Snapshot), 则可以发现空间演变规则。 空间演变规则是指空间目标依时间的变化规则,即哪些地区易变,哪些地区不易变, 哪些目标易变、怎么变,哪些目标固定不变。

(8)面向对象的知识

指某类复杂对象的子类构成及其普遍特征的知识。 可用的知识表达方法有:特征表、谓词逻辑、产生式规则、语义网络、面向对象的表达方法、可视化表达方法等, 应根据不同的应用选取不同的表达方法,并且各种表达方法之间还可以相互转换。

11.1.2. 空间数据挖掘的方法与过程

1.空间数据挖掘方法

空间数据挖掘和知识发现是多学科和多种技术交叉综合的新领域, 它综合了机器学习、数库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、可视化等域的有关技术, 另外,空间数据挖掘并不是某一种具体的全新的方法, 它的许多方法在地理信息系统、地理空间认知、地图数据处理、地学数据分析领域内早己广泛应用。 因而,数据挖掘和知识发现方法是丰富多彩的,并且不仅包括一般数据挖掘的方法, 同时也有很多针对空间数据库的方法。 目前空间数据挖掘和知识发现主要有以下方法(王占全,2005;彭晶倩,2006):

(1)空间分析方法

空间分析能力是GIS的关键技术,是GIS系统区分于一般制图系统的主要标志之一。 空间分析方法常作为数据预处理和特征提取方法与其他数据挖掘方法结合使用。

(2)统计分析方法

统计方法一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。 它具有较强的理论性和成熟的算法,多用于处理数字型数据。 统计分析方法中的回归分析、方差分析、主成分分析、因子分析等方法经常用于规律和模式的提取。 统计方法的最大缺点是要假设空间分布数据具有统计不相关性,但在空间数据挖掘中, 由于空间对象属性的相关性很强,在一定程度上限制了统计分析方法在空间数据挖掘中的使用。

(3)归纳学习方法

归纳学习是从大量的己知数据中归纳抽取出一般的判断规则和模式,一般需要相应的背景知识。 归纳学习在数据挖掘中的使用非常广泛,己经有了成熟的理论算法,如著名的C4.5算法(由ID3算法发展而来), 具有分类快和适用于大型数据库的特点;AOI(面向属性的归纳方法),能归纳出高层次的模式或特征。

(4)空间关联规则挖掘方法

关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性。 如果两个或多个事物之间存在关联,那么,其中一个事物就能从其他己知事物中预测得到。 所谓关联规则是指数据集中支持度和信任度分别满足给定闭值的规则。 经典的算法有R.Agrawal等人提出的Apriori算法,以及对其的改进算法: AprioriTid,APrioriHibrid等。

(5)聚类方法

空间聚类分析是要将空间数据库中的对象按照某些特征划分为不同的有意义的子类, 同一子类中的对象具有高度相似的某种特征,并与不同子类的特征具有明显的差异(巩华荣,2007)。 采用聚类分析的优点在于:想获取的结构或簇可以直接从数据中找到, 不需要任何背景知识。

(6)分类方法

是指分析空间对象导出与一定空间特征有关的分类模式。 空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则。

①决策树分类

Fayyed等人使用决策树方法对星形结构对象的图像进行分类,从而探测行星与银河系。 他们的方法是使用FOCAS系统为选中的对象,例如天空图像,生成区域、方向等的基本属性。 训练集中的对象由宇航员来分类。 基于这些分类,构成用于决策树算法的10个训练集,决策树是通过学习算法得到的。 最后,由决策树生成一个健壮、通用、正确的最小分类规则集合。 该方法处理的是图像数据库,并应用于天文研究领域。 但它却不善于处理常用于GIS中的向量数据格式。

②贝叶斯分类

贝叶斯分类方法的关键是使用概率表示各种形式的不确定性。 在选择某事件面临不确定性时在某一时刻假定此事件会发生的概率,然后根据不断获取的新的信息修正此概率。 修正之前的概率称为先验概率,修正之后的概率称为后验概率。 贝叶斯原理就是根据新的信息从先验概率得到后验概率的一种方法。 贝叶斯方法在使用先验信息方面由于没有确定的理论依据,存在颇多争议。 但是在大型数据集方面,贝叶斯分类方法具有高准确率和高运算速度。

(7)神经网络方法

人工神经网络是近年来的一个研究热点,在信号处理、模式识别、人工智能、自适应控制、 决策优化等众多领域得到了广泛的研究和应用。 神经网络由多个非常简单的处理单元(神经元)按某种方式相互连接而形成, 靠网络状态对外部输入信息的动态响应来处理信息。 神经网络在数据挖掘中主要用于获取分类知识,优点是分类精度高、对噪声具有稳健性; 缺点是获得的知识隐含在网络结构中,不容易被人们理解和解释,而且网络训练时间一般比较长,不易利用领域知识。

(8)粗集理论

粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具, 被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。 粗集理论为空间数据的属性分析和知识发现开辟了一条新途径, 可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。 粗集理论与其它知识发现算法结合可以在空间数据库中数据不确定的情况下获取多种知识。

(9)模糊集理论

模糊集理论是L.A.Zadeh教授在1965年提出的。 它是经典集合理论的扩展,专门处理自然界和人类社会中的模糊现象和问题。 利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。 系统的复杂性越高,精确能力就越低,模糊性就越强, 这是Zadeh总结出的互克性原理模糊集理论在遥感图像的模糊分类、 GIS模糊查询、空间数据不确定性表达和处理等方面得到了广泛应用。

(10)云理论

云理论是李德毅院士提出的用于处理不确定性的一种新理论,云理论由云模型、虚拟云、云运算、 云变换和不确定性推理等内容构成。 云模型将模糊性和随机性相结合,解决了作为模糊集理论基础的隶属函数概念的固有缺点, 为数据挖掘中定量与定性相结合的处理方法奠定了基础;虚拟云和云变换用于概念层次结构删除和概念提升; 云推理用于不确定性预测等。 云理论在知识表达、知识发现、知识应用等方面都可以得到充分的应用。

(11)遗传算法

遗传算法(简称GA)是模拟生物进化过程的算法,最先由美国的John Holland教授于20世纪60年代初提出,其本质是一种求解问题的高效并行全局搜索方法, 它能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。 遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。 数据挖掘中的许多问题,如分类、聚类、预测等知识的获取,可以表达或转换成最优化问题, 进而可以用遗传算法来求解。

(12)空间趋势分析

空间趋势指离开一个给定的起始空间对象时,非空间属性的变化情况。 例如,当离城市中心越来越远时经济形势的变化趋势。 其分析结果可能是正向趋势、反向趋势或者没有趋势。 一般在空间数据结构和空间访问方法之上分析空间趋势,需要使用回归和相关的分析方法。 由于空间对象自身的特殊性,传统的回归模型可能并不合适。 例如,传统的线性回归模型( y = Xβ +ε)对空间对象就不适用,需要使用空间自回归SAR模型:

y =ρW y + X β+ε

(公式11-1)

(13)概念格理论

概念格是由R.Wille在1982年首先提出的,作为数据分析的有力工具, 概念格己经被广泛地应用于知识发现和数据挖掘领域。 它的每一节点称为一个概念,每个概念由概念格的外延和内涵两部分组成, 概念的外延表示属于这个概念所有对象的集合,而内涵则表示为所有这些对象所共有的属性集合。 概念格描述了对象和属性之间的关系,概念格的哈斯图清晰地表明了概念间的泛化和特化关系, 并实现了知识的可视化。 因此,概念格理论已经被广泛地应用于知识工程、知识管理、数据挖掘、信息检索及软件工程等领域。

(14)支持向量机

支持向量机(Support Vector Machine, SVM)是一种新的机器学习技术,由Vapnik 和他的同事于1995 年提出(刘叶青,2008)。 它能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题, 并可推广于预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。 目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。 它广泛的应用于统计分类以及回归分析中。 支持向量机属于一般化线性分类器。 这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。 因此支持向量机也被称为最大边缘区分类器。

此外,还有空间特征,图像分析和模式识别方法,证据理论,数据可视化方法,地学信息图谱方法, 计算几何方法等。 上述每一种方法都有一定的适用范围。 在实际应用中,为了发现某类知识,常常要综合运用这些方法。 空间数据挖掘方法还要与常规的数据库技术充分结合。 例如,在时空数据库中挖掘空间演变规则时,可利用GIS的叠置分析等方法首先提取出变化了的数据, 再综合统计方法和归纳方法得到空间演变规则。 总之,空间数据挖掘利用的技术越多,得出的结果精确性就越高,因此, 多种方法的集成也是空间数据挖掘的一个有前途的发展方向。 此外,空间数据挖掘除了发展和完善自己的理论和方法, 还要充分借鉴和汲取数据挖掘和知识发现、据库、机器学习、人工智能、数理统计、可视化、地理信息系统、遥感、图形图像学、医疗、分子生物学等学科领域的成熟的理论和方法。

2.空间数据挖掘过程

空间数据挖掘是一个复杂的过程,这一过程分为三个阶段:空间数据的获取和预处理、空间数据挖掘、 空间数据的评价和可视化解析,如图11-1所示。

image1

(1)空间数据的获取和预处理

空间数据的获取和预处理需要经历三个步骤:

①数据准备:了解空间数据挖掘相关领域的基本情况,学习该领域的先决知识,分析挖掘的目的,构造概念分层。

②数据选择:根据需要从空间数据库中提取与空间数据挖掘相关的数据,使用合适的空间数据结构和数据访问方法。

③数据预处理:消除噪声数据,统一数据格式和数据源,对丢失数据利用统计方法进行填补, 确保数据的完整性和一致性。

(2)空间数据挖掘

空间数据挖掘阶段又分为三个步骤:

①确定目标:对于空间数据挖掘的不同要求,会在具体的知识发现过程中采用不同的数据挖掘算法, 所以首先要确定空间数据挖掘的目标。

②建立模型:根据空间数据挖掘的目标,选择合适的数据挖掘算法,建立空间数据挖掘的模型, 并使得数据挖掘模型和整个空间数据挖掘的评判标准相一致。

③数据挖掘:运用选定的数据挖掘算法,从数据中提取用户所需要的知识,这些知识可以用特定的方式表示, 也可以用常规的方式表示。

(3)空间数据的评价和可视化解析

空间数据的评价和可视化解析阶段包括模式解释、知识评价和可视化展示:

①模式解释:对于数据挖掘的模式进行解释,有时为了取得更有效的知识, 可能返回到前面的步骤进行反复提取。

②知识评价:将数据挖掘得到的知识以能理解的方式展现,包括对结果的一致性检查, 以确保本次发现的知识不与领域的相关知识相抵触。

③可视化展示:将数据挖掘的知识用可视化的方法展示,如GIS技术, 将空间数据挖掘的结果展布于空间地图上。

11.1.3. 空间数据挖掘的应用

空间信息约占数字地球总信息量的80%。 空间数据挖掘是将这些信息转为有用的知识的有效工具之一, 在“数字地球”海量空间数据处理中占有一十分重要的地位,有着广泛的应用前景, 如在地理信息系统、遥感、图像数据库探测、医学图像处理、导航、交通控制、 环境研究以及其它许多使用空间数据的领域中都有着十分广泛的应用。 由于SDM获取的知识同现有GIS分析工具获取的信息相比更加概括、精炼, 并可发现现有GSI分析工具无法获取的隐含的模式和规律,因此它的应用范围比GSI更广阔。 空间数据挖掘的应用概括起来主要有以下几个方面:

(1)可用于对空间数据的理解,发现显示或隐含的空间目标或现象空间关系, 指导科研人员进行更有效的工作;

(2)可用于空间数据库管理系统中对空间数据库的数据集进行重组和空间查询的优化;

(3)可作为辅助决策支持和分析的工具;

(4)可为空间数据仓库提供比SOLAP(Spatial Online Analytical Process)更高级的分析工具;

(5)可与GIS和其它IT工具高度集成构成智能化软件包。

目前,空间数据挖掘的应用,主要表现在能够指导发现新空间实体、空间决策、游览空间数据库, 理解空间数据,发现空间联系以及空间数据与非空间数据之间的关系,重组空间数据库,构造空间知识库, 优化空间查询等。 其中,具体的应用实例有在遥感影像中的应用,在公共卫生信息中的应用等等。

1.在遥感影像中的应用

空间数据挖掘适用于高分辨率遥感影像海量数据的特点, 为知识获取以及基于知识的遥感目标识别和分类的自动化和智能化开辟了一个崭新的途径。 利用它从遥感影像数据库中自动提取和利用已有的知识,可以解决当前困扰遥感数据自动处理所面临的瓶颈问题, 实现对高光谱遥感影像精细光谱地物目标的自动识别、分析、提取、匹配和分类, 扩展遥感影像目标识别和分类的能力,提高空间分辨率遥感影像中地物目标提取的精度和自动化分类程度, 如SKTCAT己经发现了16个新的极其遥远的类星体;POSS系统将天空图像中的星体对象分类准确性从75%提高到94%。 MagellanStudy系统通过分析启明星表面的大约30000幅高分辨率雷达图像,识别出火山位置, CONQUEST系统采用基于内容的空间和时间查询,发现出大气层中臭氧洞形成的样本知识。 Tesic等人还利用关系规则发现算法从星云图像中发现知识。

2.在公共卫生信息中的应用

空间数据挖掘在公共卫生方面也有广泛的应用,主要是对疾病时空分布规律、疾病成因、和医疗资源的空间优化配置。 通过空间自相关分析得出社会经济如失业率、居住空间、单亲家庭、社会等级以及人口密度等对人的健康影响, 从而实现对疾病成因进行分析。 提出利用空间区域性研究对于人群健康分布,同时指出地理分析技术在医疗资源平衡分配中的潜在应用意义。 对小区域的医院分布和距离之间的关系进行了分析,为医疗资源优化配置提供了基础。 对健康服务空间分布的均衡性进行分析,指出了疾病发病区之间均衡配置医疗资源具有重要意义。

空间数据挖掘在其它领域的应用还包括交通事故分析、空间数据融合、对电力负荷的空间分布进行预测、 对土地覆盖情况进行分类、气候变化的空间分布规律、对农作物产量进行预测、对城市地区进行分类等。