background image

Series Pattern、deviation、association analysis .     

背景

  

   

大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,

难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息
形式不一致,难以统一处理。人们开始提出一个新的口号:

“要学会抛弃信息”。

人们开始考虑:

“如何才能不被信息淹没,而是从中及时发现有用的知识、提高

信息利用率?

”   面对这一挑战,数据开采和知识发现(DMKD)技术应运

而生,并显示出强大的生命力。

 

    另一方面,随着数据库技术的迅速发展以及数据库管理系统(DBMS)的广
泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人
们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库
系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的
关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏
的知识的手段,导致了

“数据爆炸但知识贫乏”的现象。

1、

数据挖掘的定义

1.1 数据挖掘的定义

数据挖掘(

Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随

机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用
的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、
含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用

 

并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去

发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所
有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时
还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

1. 2 数据挖掘与传统分析方法的区别