Series Pattern、deviation、association analysis .
背景
大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,
难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息
形式不一致,难以统一处理。人们开始提出一个新的口号:
“要学会抛弃信息”。
人们开始考虑:
“如何才能不被信息淹没,而是从中及时发现有用的知识、提高
信息利用率?
” 面对这一挑战,数据开采和知识发现(DMKD)技术应运
而生,并显示出强大的生命力。
另一方面,随着数据库技术的迅速发展以及数据库管理系统(DBMS)的广
泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人
们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库
系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的
关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏
的知识的手段,导致了
“数据爆炸但知识贫乏”的现象。
1、
数据挖掘的定义
1.1 数据挖掘的定义
数据挖掘(
Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随
机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用
的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、
含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用
并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去
发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所
有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时
还要能够易于被用户理解。最好能用自然语言表达所发现的结果。
1. 2 数据挖掘与传统分析方法的区别