background image

数据仓库分为:数据集市、企业仓库和虚拟仓库

数据仓库主要包含了数据源、数据准备区、数据仓库数据库、数据集市

/知识挖掘库已经各

种管理工具和应用工具

数据仓库的参考架构:
1.数据仓库基本功能层:包括了数据源、数据准备区、数据仓库结构、数据集市或知识

挖掘库,已经存取和使用部分。其基本功能是从数据源抽取数据,对所抽取的数据进
行筛选、清理,将处理过的数据导入或者说加载到数据仓库中,根据用户的需求设立
数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等。

2.数据仓库管理层:由数据仓库的数据管理和数据仓库的元数据管理组成。数据仓库的

管理层包含了数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统 ,
安全性与用户授权管理系统以及数据归档、恢复和净化系统

4 个部分。

3.数据仓库环境支持层:包括了数据仓库数据传输层和数据仓库基础层组成。

数据挖掘:长期对数据库技术进行研究和开发的结果。
数据挖掘的特征:没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息
应该具有先知、有效和可实用三个特征。

数据挖掘的功能:
1.自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性的信息,以往需要大

量手工分析的问题如今可以迅速直接由数据本身得出结论。

2.关联分析:关联分析的目的是找出数据库中隐藏的关联网。关联分为:简单关联,时

序关联和因果关联。

3.聚类:数据库中的记录可划分为一系列的有意义的子集。
4.概念描述:
5.偏差检测:偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

数据挖掘常用的技术:
1.决策树:
2.神经网络
3.遗传算法
4.关联规则挖掘算法

数据挖掘分析方法:
1.关联分析
2.序列分析
3.分类分析
4.聚类分析
5.预测
6.时间序列分析

数据挖掘的流程:
1.问题定义:要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即