高性能网站中海量数据的处理方法

在实际的工作环境下，许多人会遇到海量数据这个复杂而艰巨的问题，它的主要难点

有以下几个方面：

一、数据量过大，数据中什么情况都可能存在。

如果说有

10 条数据，那么大不了每条去逐一检查，人为处理，如果有上百条数据，也

可以考虑，如果数据上到千万级别，甚至过亿，那不是手工能解决的了，必须通过工具或

者程序进行处理，尤其海量的数据中，什么情况都可能存在，例如，数据中某处格式出了

问题，尤其在程序处理时，前面还能正常处理，突然到了某个地方问题出现了，程序终止

了。

二、软硬件要求高，系统资源占用率高。

对海量的数据进行处理，除了好的方法，最重要的就是合理使用工具，合理分配系统

资源。一般情况，如果处理的数据过

TB 级，小型机是要考虑的，普通的机子如果有好的方

法可以考虑，不过也必须加大

CPU 和内存，就象面对着千军万马，光有勇气没有一兵一卒

是很难取胜的。

三、要求很高的处理方法和技巧。

这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验的积累，也是

个人的经验的总结。没有通用的处理方法，但有通用的原理和规则。

下面我们来详细介绍一下处理海量数据的经验和技巧：

一、选用优秀的数据库工具

现在的数据库工具厂家比较多，对海量数据的处理对所使用的数据库工具要求比较高，

一般使用

Oracle 或者 DB2，微软公司最近发布的 SQL Server 2005 性能也不错。另外在 BI 领

域：数据库，数据仓库，多维数据库，数据挖掘等相关工具也要进行选择，象好的

ETL 工

具和好的

OLAP 工具都十分必要，例如 Informatic，Eassbase 等。笔者在实际数据分析项目

中，对每天

6000 万条的日志数据进行处理，使用 SQL Server 2000 需要花费 6 小时，而使

用

SQL Server 2005 则只需要花费 3 小时。

二、编写优良的程序代码

处理数据离不开优秀的程序代码，尤其在进行复杂数据处理时，必须使用程序。好的程

序代码对数据的处理至关重要，这不仅仅是数据处理准确度的问题，更是数据处理效率的

问题。良好的程序代码应该包含好的算法，包含好的处理流程，包含好的效率，包含好的异

常处理机制等。

三、对海量数据进行分区操作

对海量数据进行分区操作十分必要，例如针对按年份存取的数据，我们可以按年进行

分区，不同的数据库有不同的分区方式，不过处理机制大体相同。例如

SQL Server 的数据

库分区是将不同的数据存于不同的文件组下，而不同的文件组存于不同的磁盘分区下，这

样将数据分散开，减小磁盘

I/O，减小了系统负荷，而且还可以将日志，索引等放于不同的