您的位置: 网界网 > 周报全文 > 正文

[周报全文]服务器正常运行时间最大化

2010年11月24日 16:51:15 | 作者:CNW.com.cn | 来源:网界网 | 查看本文手机版

摘要:在充斥着诸多不确定性目标的IT世界中,可能再也没有哪个目标会像提升服务器正常运行时间这一目标更难以捉摸的了。

标签
服务器
正常运行时间

【CNW.com.cn 专稿】保持服务器的正常运行和唤醒状态,或者至少准备好一旦有需要就立刻投入运行,这个目标可能是所有数据中心经理们最渴望实现的目标之一。

然而,很少有数据中心经理们能够诚实地说,他们所做的一切绝对都是为了让系统的正常运行时间最大化。专家们说,事实上很多经理都把大量的时间和金钱浪费在了很少,或者不能对正常运行时间产生积极作用的技术和实践上了。

“17年来,我们从未出现过影响到客户利益的重大宕机事件。”

Six Telekurs负责IT和后勤的副总裁 Walter Beddoe

美国金融数据服务商Six Telekurs负责IT运营与后勤保障的副总裁Walter Beddoe认为,实现正常运行时间的最大化,既是一门科学也是一门管理艺术。“需要将诸多不同的东西组合在一起,包括可胜任此项工作的人员,利用容错硬件,采纳动态安全、良好的维护与变更管理实践等。最重要的是,你必须承诺尽最大可能将一切做好。”

普林斯顿一家诊断医学成像公司Princeton Radiology的IT部门主任Alan Howard敦促其属下,不要把时间和资源浪费在不能直接对提高正常运行时间有贡献的行为和工具上面。比方说进行集群的努力就是“相当浪费的”,还不如冗余配置再辅以工具更能实现全自动化。

不能自动化的集群——其中的同步需要手工完成——可能会引起更多的问题。Howard说。“某个主节点一旦失灵就可能是灾难性的。与其让主节点失灵再去恢复它,还不如让备用节点失灵更好些。”

他举例说,他的团队做了一个Windows Server的集群,用作失效备援,结果却导致了应用程序的崩溃。因为该应用配置文件的一个变动未能及时拷到备用服务器上去。“修复应用崩溃故障所花费的努力往往要比修复一个集群节点失灵故障的努力大多了。”

之后,他的团队就不再配置传统意义的集群服务器了。相反,他们配置了一个“单独的备用服务器集群”,并将该集群全部映射到一个双控制器的Compellent存储中心SAN上,“这样我们就能够基本上无缝地按需迁移虚拟机了。”

精心规划

大多数数据中心经理都同意,仔细地规划所有与服务器相关的工作——从采购到管理到替换,是保障系统可靠性的关键性步骤。

“生命周期管理是服务器正常运行时间规划的一个内在组成部分。”

华盛顿大学的IT运营兼工程设计经理 Raoul Gabiam

华盛顿大学的IT运营及工程设计经理Raoul Gabiam说,生命周期管理是服务器正常运行时间规划的一个内在组成部分。“知道在何时、如何更换硬件并升级软件是非常重要的,因为这会影响系统的性能、持续性和总体的正常运行时间。”

比方说,如果你必须做一次软件升级,那么了解清楚对硬件的需求,以及现有硬件的状态就是至关重要的。你或许得购买硬件来满足软件升级的需求,以避免出现更多的宕机。Gabiam解释道。

Gabiam还强烈地推崇标准化与协调,作为确保服务器可靠运营的方法。“在任何人安装任何东西,或者进行某个变动之前,必须先走变动管理流程。”

变动管理就是要了解“每件东西是如何配置的,并在实施变动之前对变动做出评估。”Gabiam说。“用这种方法,你就总能了解清楚哪些事情是不允许的,哪些事情可能会产生相互影响。”

他说,遵守变动管理的纪律,就可能预见到以某种方式配置服务器,或者将其安放在一个新环境中时会产生什么影响。

“工作态度在服务器管理中可以发挥巨大的作用。他说他他进行了一项额外的努力,以确保常规但很关键的服务器相关工作能够被认真严肃地对待,并及时得到处理。”

在线资源公司的CTO Paul Franko

在线资源公司是一家为金融机构提供交易服务的企业,其CTO Paul Franko认为,工作态度也会产生巨大作用。他说,他进行了一项额外的努力,以确保常规、但很关键的服务器相关工作能够被认真、严肃地对待,并及时得到处理。

“我们提出了一套系统检查与平衡机制,以确保我们的各种规则能够被遵守。”他说。按照Franko的说法,经理们必须常规性地检查下属的管理工作,再辅之以其他手段的双重检查,就可以把人工失误降至最低限度。“是人就会犯错,如果你没有设置多个检查点,事情就会滑向错误的一边。”

123
[责任编辑:程永来 cheng_yonglai@cnw.com.cn]