数据库系统
数据仓库与传统数据的区别
比较项目
数据库
数据仓库
数据内容
当前值
历史的、归档的、归纳的、计算
的数据
数据目标
面向业务操作程序、重复操作 面向主体域,分析应用
数据特性
动态变化、更新
静态、不能直接更新,只能定
时添加、更新
数据结构
高度结构化、复杂、适合操作
计算
简单、适合分析
使用频率
高
低
数据访问量
每个事务一般只访问少量记
录
每个事务都需要访问大量记
录
对响应时间的要求
计时单位小、如秒
计时单位相对较大,除了秒,
还有分,小时
数据仓库分为:数据集市、企业仓库和虚拟仓库
数据仓库主要包含了数据源、数据准备区、数据仓库数据库、数据集市
/知识挖掘库已经各种
管理工具和应用工具
数据仓库的参考架构:
1. 数据仓库基本功能层:包括了数据源、数据准备区、数据仓库结构、数据集市或知识挖掘
库,已经存取和使用部分。其基本功能是从数据源抽取数据,对所抽取的数据进行筛选、
清理,将处理过的数据导入或者说加载到数据仓库中,根据用户的需求设立数据集市 ,
完成数据仓库的复杂查询、决策分析和知识的挖掘等。
2. 数据仓库管理层:由数据仓库的数据管理和数据仓库的元数据管理组成。数据仓库的管
理层包含了数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全
性与用户授权管理系统以及数据归档、恢复和净化系统
4 个部分。
3. 数据仓库环境支持层:包括了数据仓库数据传输层和数据仓库基础层组成。
数据挖掘:长期对数据库技术进行研究和开发的结果。
数据挖掘的特征:没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应
该具有先知、有效和可实用三个特征。
数据挖掘的功能:
1. 自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性的信息,以往需要大
量手工分析的问题如今可以迅速直接由数据本身得出结论。
2. 关联分析:关联分析的目的是找出数据库中隐藏的关联网。关联分为:简单关联,时序
关联和因果关联。