background image

2010

年 第

4

度偏高导致硬件失效的问题就会很突出。另外,机柜
结构、布局方式、设备进风方式等因素都会影响机房
内热冷空气的对流效果。

因此, 除了采取措施保持机房内计算机系统处

于最佳温

/

湿度空间外, 提高服务器使用效率是减

IT

机房热 源 和 耗 电 的 重 要 途 径 ,而 提 高 效 率 最

有效的技术手段是刀片化和虚拟化。 另外,还可选
择 有 盲 板 的 新 型 机 柜 以 及 采 取 “面 对 面 、背 靠 背 ”
的排列方式,以形成冷热通道,减少冷热空气混合,
降低能耗。 机房应保持清洁,若空气灰尘过多,很容
易造成资源读写错误及磁盘机 中 磁 盘 或 读 写 磁 头
毁损。

在电源环境的安全方面, 为保障机房设备不间

断运转, 企业数据中心机房的电源环境必须按照双

UPS

电源、双冗余电路回路的方案进行建设。 其中,

核心设备电源必须分别连接到两路电源上。

2

硬件故障

IT

系统中, 主机或网络设备的电源、 系统板、

CPU

内存和旋转介质硬盘故障或

HBA

主机总线

适配器)、网卡、总线等

I / O

子系统故障都属于常见

的硬件故障, 这些故障一般都是由芯片或器件缺陷
或正常老化引起的。

除了提高单机

/

单系统本身的可靠性措施外,

应对设备硬件故障的其他有效对策还有:

a

采用可

更换的硬件结构,考虑热备盘、磁盘

RAID

独立冗

余磁盘阵列)冗余保护、双电源供电。

b

对关键的应

用做双机热备(

HA

),

操作系统层面典型

HA

技术有

IBM

HACMP

HP MC ServiceGuard

数据库层面

的典型

HA

技术有

ORACLE RAC

存储卷管理方面

的有

Symantec Veritas Storage Foundation HA

将不

同层面的

HA

技术综合运用效果会更好。 主机集群

的方式非常多,可以是主从、对等、多备一、一备多、
多备多、多机互备,也可以是双存备援、纯软环境集
群、远程高可用、虚拟环境高可用等各类灵活方式,
要经常检查双机状态。 另外一种避免主机单机故障
的技术手段是引入第三方厂商专门的应用负载均衡
设备,如

F5

Radware

Citrix

等。

系 统 管 理 中 非 常 重 要 的 一 环 是 定 期 进 行 有 效

及时的系统备份。一般系统备份的要求有三部分:

a

每台机器的操作系统至少有一个全备份。

b

每天备

份用户数据。

c

操作系统配置修改后重新备份操作

系统。 这样,当系统出现故障时,特别是文 件 系 统

被严重损坏或硬盘损坏时, 可利用系统备份来恢复
系统。

3

应用变更

由应用程序问题导致非计划宕机的主要原因来

自以下方面:

a

程序中存在的逻辑错误。

b

由于应用

系统对系统资源利用不合理造成的系统性能问题。

c

对应用的变更管理不当。例如,新的应用程序上线

正式运行之前虽然经过反复逻辑测试, 但无法做到
与生产环境相同的压力测试, 导致在与已有应用系
统共同运行时资源分配不足而宕机。 对于这些类型
的宕机情况可以通过人员培训、 流程自动化等方法
来避免。根据相关调研机构的调查结果,应用程序相
关问题导致的宕机约占全部宕机情况的

40%

4

网络问题

由于网络路由倒换设计不当, 或由于主机服务

器之间相互通信经过的网络路径发生变化, 或者主
备 设 备 倒 换 机 制 存 在 缺 陷 , 都 容 易 出 现 因 单 链
路、设备单点故障而影响

IT

应用承载网络的可用性

问题。

为了避免出现上述网络问题,在网络设计之初,

对实时性要求高的关键应用所涉及的内外部网络通
信接口关系、 相关通信两端主机以及它们所经过的
网络全路径都要进行详尽分析, 全程要避免单点故
障。 具体做法是:在进行企业

IT

数据中心内部网络

设 计 时 , 主 机 要 采 用 双 网 卡 绑 定 技 术 (如

Ether-

Channel

),

或主机网络接口卡采用一主一备的工作

方式联到同一台交换机的位 于 不 同 芯 片 组 的 端 口
上,最好是两台热堆叠的不同网络交换机。关键的网
络设备可采用通用的

HA

热备技术,如

VRRP

虚拟

路 由 器 冗 余 协 议 )、

HSRP

热 备 份 路 由 器 协 议 )、

NSRP

Netscreen

冗余协议)等。

5

操作问题

由操作问题造成的非计划性宕机主要来自两个

方面:

a

由于未按时执行应执行的系统操作任务造

成系统宕机。

b

由于错误执行系统操作任务导致系

统宕机。 对于这两类宕机情况可以通过建立相应的

IT

流程的方法尽可能避免, 再则就是建设

IT

运维

审计管理系统,提供事后追溯的手段。

3

提高

IT

系统可用性的其他措施

提高

IT

系统可用性的总体思路是事前预防和

事后及时应对,前面分别从各层面分析了

IT

系统可

技 术 交 流

7