background image

数据挖掘与传统的数据分析

(如查询、报表、联机应用分析)的本质区别是数

据挖掘是在没有明确假设的前提下去挖掘信息、发现知识

.数据挖掘所得到的信

息应具有先未知

,有效和可实用三个特征.   先前未知的信息是指该信息是预

先未曾预料到的

,既数据挖掘是要发现那些不能靠直觉发现的信息或知识 ,甚至

是违背直觉的信息或知识

,挖掘出的信息越是出乎意料,就可能越有价值.在商业

应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间
有着惊人的联系等。

数据挖掘技术及其应用是目前国际上的一个研究热点

,并在许多行业中得到

了很好的应用

,体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘

技术和人工智能技术

,获取用户知识、文献知识等各类知识,将是实现知识检索和

知识管理发展的必经之路。数字图书馆的数据挖掘是从数字图书馆大型数据库和
浩瀚的网络信息空间中发现并提取隐藏在其中的信息

,目的是帮助信息工作人员

寻找数据间潜在的关联

,发现被忽略的要素,而这些信息对预测趋势和决策行为

也许是十分有用的。

二、数据挖掘的任务

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分

析等。

2.1 关联分析 (association analysis)

关联规则挖掘是由

rakesh apwal 等人首先提出的。两个或两个以上变量的

取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的
可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找
出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相
关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

2.2 聚类分析 (clustering) 

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不

同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及
可能的数据属性之间的相互关系。

2.3 分类 (classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该

类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类
是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预
测。

2.4 预测 (predication)

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的