background image

数据挖掘技术浅析

  摘要:数据挖掘是当前热门的数据处理技术。本文介绍了数据挖掘概念、数据挖掘过程
及数据挖掘系统的体系框架与结构,阐述了数据挖掘的方法,并对数据挖掘应用进行了简
单的介绍。
  关键词:数据挖掘;神经元;方法;应用;发展
  一、引言
  伴随信息技术的迅猛发展,数据库规模与应用的不断扩大,大量数据随之产生。新增的
数据包含了重要的信息,人们希望更好地利用这些数据,并通过进行更高层次的数据分析
为决策者提供更宽广的视野。
  现今,很多领域已建立了相应的数据仓库。但人们无法辨别隐藏在海量数据中有价信息,
传统的查询方式无法满足信息挖掘的需求。因此,伴随着数据仓库技术不断发展并逐渐完善
的一种从海量信息中提取有价潜在信息的崭新数据分析技术

------数据挖掘(Data Mining)

技术应运而生。
  二、数据挖掘概念
  数据挖掘技术从

1990 年左右开始,发展速度很快,数据挖掘技术的产生和不断发展可

使得人们对当今世界的海量数据中隐藏着人们所需要的商业和科学信息等重要信息进行挖
掘。数据挖掘运用到交叉学科,涉及到,包括

Database、AI、Machine Learning、人工神经网络

Artificial Neural Networks)、统计学(statistics)、模式识别(Pattern Recognition)、信息检索

Information Retrieval)和数据库可视化等,因此数据库目前还没有明确的定义。通常普遍

认可的数据挖掘定义是:从数据库中抽取隐含的、以前未知的、有潜在应用价值的模型或规
则等有用知识的复杂过程,是一类深层次的数据分析方法。
  三、数据挖掘方法
  由于数据挖掘技术研究融合了不同学科技术,在研究方法上表现为多样性。从统计学角
度上划分,数据挖掘技术模型有:线形

/非线形分析、回归/逻辑回归分析、单/多变量分析、时

间序列

/最近序列分析和聚类分析等方法。通过运用这些技术可以检索出异常形式数据,最

后,利用多种统计和数学模型对上述数据进行解释,发掘出隐藏在海量数据后的规律和知
识。
  (一)数据挖掘统计
  统计学为数据挖掘技术提供了判别方法与分析方法,经常会用到的有贝叶斯推理
(Bayesian reasoning; Bayesian inference)、回归分析(Regression analysis)、方差分析(Analysis 
of Variance,简称 ANOVA)等分析技术、贝叶斯推理是在估计与假设统计归纳基础上发展的
全新推理方法。贝叶斯推理在与传统统计归纳推理方法相比较,所得出的结论不仅根据当前
观察得到的样本信息,还将根据推理者过去相关的经验和知识来处理数据挖掘中遇到的分
类问题;回归分析是通过输入变量和输出变量来确定变量之间的因果关系,通过建立回归
模型,根据实测数据求解模型的各参数,若能很好的拟合,则可根据自变量进一步预测。统
计方法中的方差分析是通过分析研究中估计回归直线的性能和自变量对最终回归的贡献大
小,从而确定可控因素对研究结果影响力的大小。
  (二)聚类分析(

Cluster analysis )

  聚类分析

(Cluster analysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析

技术。

 同组内的样本具有较高相似度,常用技术有分裂/凝聚算法,划分/增量聚类。聚类方

法适用于研究群组内的关系,并对群组结构做出相应评价。同时,聚类分析为了更容易地使
某个对象从其他对象中分离出来的方法用于检测孤立点。聚类分析已被应用于经济分析

Economic analysis)、模式识别(Pattern Recognition)、图像处理(image processing)等多种领