Series Pattern、deviation、association analysis .

背景

大量信息在给人们带来方便的同时也带来了一大堆问题：第一是信息过量，

难以消化；第二是信息真假难以辨识；第三是信息安全难以保证；第四是信息
形式不一致，难以统一处理。人们开始提出一个新的口号：

“要学会抛弃信息”。

人们开始考虑：

“如何才能不被信息淹没，而是从中及时发现有用的知识、提高

信息利用率？

” 　　面对这一挑战，数据开采和知识发现（DMKD）技术应运

而生，并显示出强大的生命力。

另一方面，随着数据库技术的迅速发展以及数据库管理系统（DBMS）的广
泛应用，人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息，人
们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库
系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的
关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏
的知识的手段，导致了

“数据爆炸但知识贫乏”的现象。

1、

数据挖掘的定义

1.1 数据挖掘的定义

数据挖掘（

Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随

机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用
的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、
含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用

并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去

发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所
有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时
还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

1. 2 数据挖掘与传统分析方法的区别