摘要: 随着大量的大规模的数据库迅速不断地增长,人们对数据库的应用已不满足于仅对数据库进行查询和检索。仅用查询检索不能帮助用户从数据中提取带有结论性的有用信息。这样数据库中蕴藏的丰富知识,就得不到充分的发掘和利用,形成“数据丰富而知识贫乏”的现象。另外,从人工智能应用...
随着大量的大规模的数据库迅速不断地增长,人们对数据库的应用已不满足于仅对数据库进行查询和检索。仅用查询检索不能帮助用户从数据中提取带有结论性的有用信息。这样数据库中蕴藏的丰富知识,就得不到充分的发掘和利用,形成“数据丰富而知识贫乏”的现象。另外,从人工智能应用来看,专家系统的研究虽然取得了一定的进展。但是,知识 获取仍然是专家系统研究中的瓶颈。知识工程师从领域专家处获取知识是非常复杂的个人到个人之间的交互过程,具有很强的个性,没有统一的办法。
因此,有必要考虑从数据库中发现新的知识,被称为数据库知识发现(Knowledge Discovery in Databases,简称KDD),也叫数据挖掘(Data Mining)。数据库知识发现或数据挖掘的定义为从数据中提取隐含的、先前不知道的和潜在有用的知识的过程。数据挖掘技术集成了机器学习、数据库系统、数据可视化、统计和信息理论等多领域的最新技术,有着广泛的应用前景。 数据挖掘主要分为以下四个步骤:
1)数据选取
数据仓库中的数据并不都与挖掘的信息有关,第一步就是为了只提取“有用的”数据。
2)数据转换
在确定要进行挖掘的数据之后,要对这些数据进行必要的变换,使得数据可以被进一步的操作使用,通常的变换有: 将定名量转换为定序量,以便于人工神经网络运算;对已有的属性进行数学或逻辑运算,以创建新的属性。
3)数据挖掘
在数据转换之后,就要进行数据挖掘,数据挖掘的具体技术很多,如分类、回归分析等。 4)结果解释 挖掘的信息要参照用户的决策支持目的进行分析,并且要表现给决策者。这样,结果的输出不仅包含可视化的过程,而且要经过过滤,以去掉决策者不关心的内容。