2010
年 第
4
期
度偏高导致硬件失效的问题就会很突出。另外,机柜
结构、布局方式、设备进风方式等因素都会影响机房
内热冷空气的对流效果。
因此, 除了采取措施保持机房内计算机系统处
于最佳温
/
湿度空间外, 提高服务器使用效率是减
少
IT
机房热 源 和 耗 电 的 重 要 途 径 ,而 提 高 效 率 最
有效的技术手段是刀片化和虚拟化。 另外,还可选
择 有 盲 板 的 新 型 机 柜 以 及 采 取 “面 对 面 、背 靠 背 ”
的排列方式,以形成冷热通道,减少冷热空气混合,
降低能耗。 机房应保持清洁,若空气灰尘过多,很容
易造成资源读写错误及磁盘机 中 磁 盘 或 读 写 磁 头
毁损。
在电源环境的安全方面, 为保障机房设备不间
断运转, 企业数据中心机房的电源环境必须按照双
UPS
电源、双冗余电路回路的方案进行建设。 其中,
核心设备电源必须分别连接到两路电源上。
2
)
硬件故障
IT
系统中, 主机或网络设备的电源、 系统板、
CPU
、
内存和旋转介质硬盘故障或
HBA
(
主机总线
适配器)、网卡、总线等
I / O
子系统故障都属于常见
的硬件故障, 这些故障一般都是由芯片或器件缺陷
或正常老化引起的。
除了提高单机
/
单系统本身的可靠性措施外,
应对设备硬件故障的其他有效对策还有:
a
)
采用可
更换的硬件结构,考虑热备盘、磁盘
RAID
(
独立冗
余磁盘阵列)冗余保护、双电源供电。
b
)
对关键的应
用做双机热备(
HA
),
操作系统层面典型
HA
技术有
IBM
的
HACMP
、
HP MC ServiceGuard
;
数据库层面
的典型
HA
技术有
ORACLE RAC
;
存储卷管理方面
的有
Symantec Veritas Storage Foundation HA
。
将不
同层面的
HA
技术综合运用效果会更好。 主机集群
的方式非常多,可以是主从、对等、多备一、一备多、
多备多、多机互备,也可以是双存备援、纯软环境集
群、远程高可用、虚拟环境高可用等各类灵活方式,
要经常检查双机状态。 另外一种避免主机单机故障
的技术手段是引入第三方厂商专门的应用负载均衡
设备,如
F5
、
Radware
、
Citrix
等。
系 统 管 理 中 非 常 重 要 的 一 环 是 定 期 进 行 有 效
及时的系统备份。一般系统备份的要求有三部分:
a
)
每台机器的操作系统至少有一个全备份。
b
)
每天备
份用户数据。
c
)
操作系统配置修改后重新备份操作
系统。 这样,当系统出现故障时,特别是文 件 系 统
被严重损坏或硬盘损坏时, 可利用系统备份来恢复
系统。
3
)
应用变更
由应用程序问题导致非计划宕机的主要原因来
自以下方面:
a
)
程序中存在的逻辑错误。
b
)
由于应用
系统对系统资源利用不合理造成的系统性能问题。
c
)
对应用的变更管理不当。例如,新的应用程序上线
正式运行之前虽然经过反复逻辑测试, 但无法做到
与生产环境相同的压力测试, 导致在与已有应用系
统共同运行时资源分配不足而宕机。 对于这些类型
的宕机情况可以通过人员培训、 流程自动化等方法
来避免。根据相关调研机构的调查结果,应用程序相
关问题导致的宕机约占全部宕机情况的
40%
。
4
)
网络问题
由于网络路由倒换设计不当, 或由于主机服务
器之间相互通信经过的网络路径发生变化, 或者主
备 设 备 倒 换 机 制 存 在 缺 陷 , 都 容 易 出 现 因 单 链
路、设备单点故障而影响
IT
应用承载网络的可用性
问题。
为了避免出现上述网络问题,在网络设计之初,
对实时性要求高的关键应用所涉及的内外部网络通
信接口关系、 相关通信两端主机以及它们所经过的
网络全路径都要进行详尽分析, 全程要避免单点故
障。 具体做法是:在进行企业
IT
数据中心内部网络
设 计 时 , 主 机 要 采 用 双 网 卡 绑 定 技 术 (如
Ether-
Channel
),
或主机网络接口卡采用一主一备的工作
方式联到同一台交换机的位 于 不 同 芯 片 组 的 端 口
上,最好是两台热堆叠的不同网络交换机。关键的网
络设备可采用通用的
HA
热备技术,如
VRRP
(
虚拟
路 由 器 冗 余 协 议 )、
HSRP
(
热 备 份 路 由 器 协 议 )、
NSRP
(
Netscreen
冗余协议)等。
5
)
操作问题
由操作问题造成的非计划性宕机主要来自两个
方面:
a
)
由于未按时执行应执行的系统操作任务造
成系统宕机。
b
)
由于错误执行系统操作任务导致系
统宕机。 对于这两类宕机情况可以通过建立相应的
IT
流程的方法尽可能避免, 再则就是建设
IT
运维
审计管理系统,提供事后追溯的手段。
3
提高
IT
系统可用性的其他措施
提高
IT
系统可用性的总体思路是事前预防和
事后及时应对,前面分别从各层面分析了
IT
系统可
技 术 交 流
7