background image

数据库系统

数据仓库与传统数据的区别

比较项目

数据库

数据仓库

数据内容

当前值

历史的、归档的、归纳的、计算
的数据

数据目标

面向业务操作程序、重复操作 面向主体域,分析应用

数据特性

动态变化、更新

静态、不能直接更新,只能定
时添加、更新

数据结构

高度结构化、复杂、适合操作
计算

简单、适合分析

使用频率

数据访问量

每个事务一般只访问少量记

每个事务都需要访问大量记

对响应时间的要求

计时单位小、如秒

计时单位相对较大,除了秒,
还有分,小时

数据仓库分为:数据集市、企业仓库和虚拟仓库

数据仓库主要包含了数据源、数据准备区、数据仓库数据库、数据集市

/知识挖掘库已经各种

管理工具和应用工具

数据仓库的参考架构:
1. 数据仓库基本功能层:包括了数据源、数据准备区、数据仓库结构、数据集市或知识挖掘

库,已经存取和使用部分。其基本功能是从数据源抽取数据,对所抽取的数据进行筛选、
清理,将处理过的数据导入或者说加载到数据仓库中,根据用户的需求设立数据集市 ,
完成数据仓库的复杂查询、决策分析和知识的挖掘等。

2. 数据仓库管理层:由数据仓库的数据管理和数据仓库的元数据管理组成。数据仓库的管

理层包含了数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全
性与用户授权管理系统以及数据归档、恢复和净化系统

4 个部分。

3. 数据仓库环境支持层:包括了数据仓库数据传输层和数据仓库基础层组成。

数据挖掘:长期对数据库技术进行研究和开发的结果。
数据挖掘的特征:没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应
该具有先知、有效和可实用三个特征。

数据挖掘的功能:
1. 自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性的信息,以往需要大

量手工分析的问题如今可以迅速直接由数据本身得出结论。

2. 关联分析:关联分析的目的是找出数据库中隐藏的关联网。关联分为:简单关联,时序

关联和因果关联。