background image
Hadoop 技术在商业智能 BI 中的应用
Hadoop 是个很流行的分布式计算解决方案,是 Apache 的一个开源项目名称,
核心部分包括 HDFS 及 MapReduce。其中,HDFS 是分布式文件系统,MapReduce
是分布式计算引擎。时至今日,Hadoop 在技术上已经得到验证、认可甚至到了
成熟期,同时也衍生出了一个庞大的生态圈,比较知名的包括 HBase、Hive、Spark
等。HBase 是基于 HDFS 的分布式列式数据库,HIVE 是一个基于 HBase 数据仓库
系统。Impala 为存储在 HDFS 和 HBase 中的数据提供了实时 SQL 查询功能,基于
HIVE 服务,并可共享 HIVE 的元数据。Spark 是一个类似 MapReduce 的并行计算
框架,也提供了类似的 HIVE 的 Spark SQL 查询接口,Hive 是基于 hadoop 的数
据分析工具。
很多企业比如银行流水作业很多,数据都是实时更新且数据量很大。会采用
hadoop 作为底层数据库,借由中间商处理底层数据,然后通过 BI 系统去连接这
些中间数据处理厂商的中间表,接入处理数据,尤其以星环、华为这类 hadoop
大数据平台商居多,使用也较为广泛。
这里以星环大数据平台与帆软大数据 BI 工具 FineBI 的结合应用来简单介绍
下。
由于星环也是处理 hadoop 下的 hive 数据库,其本质都是差不多的,可以使
用 Hive 提供的 jdbc 驱动,这个驱动同样可以让 FineBI 连接星环的数据库并进
行一些类关系型数据库的 sql 语句查询等操作,部分特殊 sql 的公式需要与星环
人员确认是否可以使用。
首先将这些驱动拷贝到报表工程下面,然后重启 BI 服务器。重启后可以建
立与星环数据库的数据连接,最后通过连接进行数据查询。
1、本地部署
下 图 是 FineBI 内 部 测 试 用 的 hadoop 的 jar 包 ( 将 以 下 jar 包 放 置 于
webinf-lib 文件夹下),亲测,可连接成功,如下图所示:
2、数据连接
数据连接如下图所示: