然包含时间属性
,是一系列传统数据库的数据快照。
从结构来看,有
3 种数据仓库模型:企业仓库、数据集市、虚拟仓库:
企业仓库:包含整个企业的各个主题的数据信息;
数据集市
:包含
对特定用户有用
的,
企业仓库数据的子集 ,限定于
选定的主题
;
虚拟仓库:
传统数据库视图的集合
。
数据清洗:从多个数据源中提取数据,
解决不同数据源
格式不统一
的问题
。
1.5. 数据挖掘
常见的数据挖掘算法有:
决策树、神经网络、遗传算法、关联规则挖掘算
法
。
数据挖掘分析方法:
关联分析:挖掘出藏在数据间的相互关系;
序列模式
分析:挖掘出藏在数据间的
前后关系、因果关系
;
分类分析
:
首先为每一个记录赋予一个标记(一组具有不同特征的类
别),
即按标记分类记录,
然后检查这些标定的记录,描述这些记录
的特征
;
聚类分析
:分类分析的逆过程,
首先输入原始记录(未标定,不做任
何处理),然后根据一定得规则,划分记录集合
,并用显示或隐式方
法描述不同类别。
数据清洗:解决
不同数据源格式不统一
的问题。
1.6. E-R 图
局部
ER 图合成为总 ER 图时,会发生一些冲突:
命名
冲突:
同名异议,异名同义
;
属性
冲突:同一属性在不同分
ER 图中的
变量类型、取值范围和数据
3