Hadoop 技术在商业智能 BI 中的应用

Hadoop 是个很流行的分布式计算解决方案，是 Apache 的一个开源项目名称，

核心部分包括 HDFS 及 MapReduce。其中，HDFS 是分布式文件系统，MapReduce
是分布式计算引擎。时至今日，Hadoop 在技术上已经得到验证、认可甚至到了
成熟期，同时也衍生出了一个庞大的生态圈，比较知名的包括 HBase、Hive、Spark
等。HBase 是基于 HDFS 的分布式列式数据库，HIVE 是一个基于 HBase 数据仓库
系统。Impala 为存储在 HDFS 和 HBase 中的数据提供了实时 SQL 查询功能，基于
HIVE 服务，并可共享 HIVE 的元数据。Spark 是一个类似 MapReduce 的并行计算
框架，也提供了类似的 HIVE 的 Spark SQL 查询接口，Hive 是基于 hadoop 的数
据分析工具。

很多企业比如银行流水作业很多，数据都是实时更新且数据量很大。会采用

hadoop 作为底层数据库，借由中间商处理底层数据，然后通过 BI 系统去连接这
些中间数据处理厂商的中间表，接入处理数据，尤其以星环、华为这类 hadoop
大数据平台商居多，使用也较为广泛。

这里以星环大数据平台与帆软大数据 BI 工具 FineBI 的结合应用来简单介绍

由于星环也是处理 hadoop 下的 hive 数据库，其本质都是差不多的，可以使

用 Hive 提供的 jdbc 驱动，这个驱动同样可以让 FineBI 连接星环的数据库并进
行一些类关系型数据库的 sql 语句查询等操作，部分特殊 sql 的公式需要与星环
人员确认是否可以使用。

首先将这些驱动拷贝到报表工程下面，然后重启 BI 服务器。重启后可以建

立与星环数据库的数据连接，最后通过连接进行数据查询。
1、本地部署

下图是 FineBI 内部测试用的 hadoop 的 jar 包（将以下 jar 包放置于

webinf-lib 文件夹下），亲测，可连接成功，如下图所示：

2、数据连接
数据连接如下图所示：