background image

然包含时间属性

,是一系列传统数据库的数据快照。

从结构来看,有

3 种数据仓库模型:企业仓库、数据集市、虚拟仓库:

企业仓库:包含整个企业的各个主题的数据信息;

数据集市

:包含

对特定用户有用

的,

企业仓库数据的子集 ,限定于

选定的主题

虚拟仓库:

传统数据库视图的集合

    数据清洗:从多个数据源中提取数据,

解决不同数据源

 

 格式不统一

 

 

的问题

 

 

1.5. 数据挖掘

常见的数据挖掘算法有:

决策树、神经网络、遗传算法、关联规则挖掘算

数据挖掘分析方法:

关联分析:挖掘出藏在数据间的相互关系;

序列模式

分析:挖掘出藏在数据间的

前后关系、因果关系

分类分析

首先为每一个记录赋予一个标记(一组具有不同特征的类

别),

即按标记分类记录,

然后检查这些标定的记录,描述这些记录

的特征

聚类分析

:分类分析的逆过程,

首先输入原始记录(未标定,不做任

何处理),然后根据一定得规则,划分记录集合

,并用显示或隐式方

法描述不同类别。

    数据清洗:解决

不同数据源格式不统一

的问题。

1.6. E-R 

局部

ER 图合成为总 ER 图时,会发生一些冲突:

命名

冲突:

同名异议,异名同义

属性

冲突:同一属性在不同分

ER 图中的

变量类型、取值范围和数据

3