IT自动化:大型数据中心安全运维的必经之路
http://www.zhuaxia.com/pre_channel/5112704
近一年来桥梁倒塌的新闻时见于报端,这些倒塌的桥梁中,有的是刚刚建成即告倒塌,有的是忽遭外力的异常作用而坍塌,更有的是好好地忽然间就自己倒掉了。作为一个IT从业人员,每看到这样的新闻,我都会想到我们所碰到的IT系统中出现重大业务中断的情形。事实上,桥梁是最稳定的力学系统之一,相比之下,由众多不同组件组成的IT系统比桥梁更为复杂,而且技术和设备的更新速度很快,并要承受各种频繁的日常变更,因而要比桥梁脆弱得多。可以说这个世界上每天都会出现IT系统中断甚至崩溃的情况,保证IT系统的稳定安全运行也比桥梁的养护要困难得多。
桥梁的坍塌往往酿成严重的人员伤亡,IT系统的中断虽然不会带来人身的伤害,但会给企业带来重大的经济损失和声誉上的损害,更会给IT运维人员带来巨大的心理压力和严重的挫折感。这种压力对今天中国金融业的IT运维人员来说尤为严重,甚至已经超出了大多数IT运维部门的承受能力。这一是因为金融业务特有的实时性和重要性,二则是因为中国金融业正在进行的数据大集中将运维压力高度集中了,这种集中并不是简单的累加关系,而是指数级的增长。因为在过去系统和数据分散的时候,故障的影响范围有限,而今天一次故障就可能影响到全国范围。打个不恰当的比方,桥梁倒塌造成1人伤亡,这样的新闻出100次可能也没人注意,而假如一次这样的事故造成100人伤亡,估计立即会变成全球媒体的头条新闻。而数据大集中就象是将全世界的桥梁都整合成一座桥梁一样,试想一下,要设计、建设、维修和保养这座桥梁,将是个多么艰巨的任务!
IT之外的人员经常会说,数据集中之后,一个数据中心里集中了那么多运维人员,运维水平、支持力度、资源供给都大大提高了,应该不会出事才对啊?其实,这样说对数据中心运维人员有些不公平。
首先是因为虽然IT系统的问题最终往往体现为运维中的生产事故,但实际的原因却非常复杂,其中有相当比例的问题是运维之外的、IT系统整个生命周期的前期工作引起的,比如说业务部门提出的需求不准确、业务或应用设计不合理、前期应用压力测试不充分、对业务量的预估过小、系统可靠性设计不达标等等,都会导致上线运行的系统无法满足实际运行时的业务要求,从而产生种种运行中的问题。尤其是近年来随着证券金融市场的火爆,各类业务交易量暴涨,不断冲击现有应用系统的承受极限,这类问题发生得更加频繁。这些并不属于运维范畴的问题一旦发生,在实际工作中往往难以非常清晰地界定,导致IT部门中的运维人员成为承接整个IT项目周期中所有问题的最后一棒,承担了一些本来不应该由运维人员承担的责任和压力。
另外,数据大集中后运维工作的复杂度和难度大大增加。这也并不是过去分散的运维工作的简单叠加,而是量变引起质变,其工作难度的增加几乎可以用聚变效应来类比。一方面是由于数据中心中集中了几乎所有的应用和系统,技术复杂度和关联度极高,有时哪怕有一项配置变更出错就会引发意想不到的重大故障。可能触发故障的事件的数量超出了 IT 能预知、应对甚至注意它们的能力,更不用说对它们进行预防;另一方面,运维人员的高度集中和专业化固然提升了整个银行的运维效率,但也带来了运维管理的高度复杂性。有经验的管理者都知道,人员的增加在很多时候不但无法带来效率的提升,甚至会直接导致工作质量的下降。就象最近很热门的《明朝那些事儿》这本书中所提到的,打架、打群架和战争完全不是一个概念,假如将过去的IT系统运维比作打架的话,今天的大型数据中心运维完全是一场大型的战争,所要求的技能和运作机制完全不同。在大型和复杂的数据中心中,靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,必须通过专业化、标准化和流程化的手段,以严格的管理和合理的人力资源结构来有效组织起各项运维工作,才能满足高标准的运维要求。
由此可见,要实现数据大集中后大型数据中心的安全生产,需要整个IT生命周期中各个环节共同作用,投产前的应用、系统的需求分析、设计是根源,验证和建设是保证,运维工作只是最后一棒,但也是周期最长,压力最大的一棒。
当然,作为IT运维部门,只能从自己能控制的部分入手,着重解决运维中面临的种种问题。当前大型数据中心运维的主要问题是系统架构和人员管理方面的高度复杂性给数据中心的运维带来了各种各样的延迟效应,这些延迟产生于基础设施、团队、组织或流程中存在的各种缝隙之中。虚拟化、合规审计、外包、新应用程序的部署、ITIL 标准化、灾难恢复、技术升级和配置、数据中心合并、打补丁和安全——所有这些主要运维工作都涉及到多个团队、多个流程步骤、多种技术构成和多种互相依赖关系,因此便增加了延迟。
由于对应用环境缺乏统一的全面认识,在重复手工执行大量日常运维工作上消耗了大量的人力资源,在流程调度协调上付出太多的沟通成本,导致IT运维中的延迟随着所管理的设备和应用的增多、流程和工具的增加而越来越多。有时为了能更好提升运维水平的运维管理系统也同样会带来更多的延迟,比如网管系统上线后大量的事件告警使运维人员疲于应付,工单系统上线后则使文档和协调工作量大大增加,延迟效应不降反升。所有以上这些延迟效应累积起来,最终反映为整个IT系统的可用性指标难以提高。
那么如何克服这些延迟呢?到目前为止,解决这类问题的唯一解决方案似乎就是“更多”:更多的人力、更多的基础架构、更多的资金、更多的工具、更多的流程、更多的规范和更多的时间。但是,这些更多的规范、人力和流程往往反而使情况变得更糟,使问题变得更不确定、更复杂,成本也更高。运维标准的提高会导致人力资源的成倍提升,但实际情况是人力资源的配给无法与运维标准同步提升,导致运维标准会逐步与实际工作脱离。拿规范来说,在有些IT系统中,虽然有很多的配置规范和安全规范,但却只是一叠叠的纸面的规范,甚至干脆成了免责规范,出问题的时候会说没有遵循规范,但事实上根本没能配备可以检查和落实规范的人力。虽然可能每年都要进行相应的一些合规审计,也在这些审计工作上投入了大量的人力,但往往是集中突击,为审计而审计,但却很难对日常运行中的实际系统稳定性产生什么积极的影响。
近几年来,越来越多的IT运维管理者开始意识到,IT自动化可能是面对运维中各种延迟的唯一解决之道。IT自动化指的是IT运维工作的自动化,将日常IT 运维中大量的重复性工作自动化,小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,都可以由过去的手工执行转为自动化操作,从而减少乃至消除大多数运维中的种种延迟,实现“零延时”的数据中心运维。
IT自动化这个概念听起来有些超前,这恰恰是因为IT运维是今天世界上自动化程度最低的行业之一,IT运维中绝大多数工作都是手工操作。举个最简单的例子,一个简单的配置变更也往往需要操作员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在数据中心中往往每天都在进行,占用了大量的运维资源。
其实也有某些局部的IT自动化手段是在许多IT系统中被广泛采用的技术了。举个最简单的例子,可能大多数企业都已经实现了杀毒软件的自动升级和自动安装,补丁的自动检查和安装也有非常广泛的应用。这些都是最简单的一些IT自动化技术,往往通过一些小型工具软件实现一些运维操作的局部自动化,但这些点状式的自动化工具虽然可以减少特定系统、团队或某些任务中的简单延迟,对减少团队间和跨越系统竖井的任务的延迟却无能为力。实际上,经验证明,IT自动化从点状式的工具入手可以解决某些局部的运维效率问题,但无法促成整个数据中心运维效率的提升和整体延迟效应的降低,甚至可能会增加一个组织内的整体延迟,导致 IT 运行环境更趋复杂化。
因此IT自动化的部署要从为消除整个数据中心的各种延迟提供平台的角度做全局化考虑,提供多维度、层次化的自动化能力。
首先是要建设对基础设施的操作(包括安装、变更、检查、审计、备份等)提供自动化的运维操作管理平台,将目前各种离散的操作者直接面对设备进行各种日常操作的运维模式转变为操作者通过一个统一的运维操作控制管理平台来进行操作,弥补传统网管监控系统重“监”轻“控”的不足,加强IT运维中的控制力:一方面通过操作自动化提升运维人员对系统的控制能力,提高运维效率并减少操作失误带来的故障,另一方面通过对所有操作的记录和审计的自动化提升管理人员对操作者和整个系统的控制和监管能力。同时实现配置规范、安全规范的自动化合规审计,通过建立合规检查的实时反馈机制,将大量的规范从锁在柜子中的文档变为实时可以查看的活的规范,确保配置规范的严肃性和有效性,从而将合规审计从突击性的文档整理转变为对运维真正有实际监督和提升作用的重要工作。
再就是通过自动化手段,自动发现和更新整个跨层 IT 基础设施(软件应用程序、服务器、网络以及存储基础设施)的数据,自动完成维护CMDB中各种CI数据准确性的流程,通过与自动化运维操作管理平台的整合,主动自动记录数据中心环境中的运维变更,从而克服手工维护CMDB带来的种种问题,提供一个权威和精确的IT数据模型,使不同的运维团队可以面对统一的、准确的基础设施环境视图,从而消除各团队单一视角带来的各种延迟。
还有最重要的一点,就是要从流程的角度入手,提供能够整合IT运维管理的各个团队、各个系统和各种工具的自动化调度平台。近年来迅速流行的RBA-运维手册自动化(Run Book Automation)就是从流程自动化的角度入手,将数据中心运维中的各项工作都制作成可重复利用的自动化模板和工作流,并整合工作流中会涉及到的各种 IT运维系统,如网管监视系统、工单系统和运维操作管理系统等,实现大量日常运维工作全流程的自动化,为复杂的变更和运维工作提供统一标准的调度,从而可以保证任何 IT 流程都不会偏离已确立的流程标准。
这种IT自动化并不是美好的空想,而是已经应用在了许多IT系统之中,这些先行者也已经体会到了IT自动化带来的巨大收益,世界上最大的数据中心外包运营商EDS就是最好的例证之一。
国内金融业的大型数据中心,承载的交易笔数往往要远高于国外的数据中心,面临的运维压力也有过之而无不及,但技术人力资源的配备由于历史和机制的问题却并不能尽如人意,人力资源的配置也不尽合理,比如说近年来招收的IT人员,由于银行的吸引力,学历往往很高,但大多数却在从事非常简单的重复性操作工作,长此以往,人才的稳定性难以保证。因此笔者认为,IT自动化对中国金融业的意义比国外企业更为重要。IT自动化的成功运用,对某些国外数据中心来说,可能意味着成本的降低和流程的加速,但对中国可能更多意味着使许多“不能”成为“能”,使“没有”成为“有”,也是一个量变和质变的区别。
篇幅所限,言犹未尽,在此衷心地希望越来越多的金融业IT人士能够意识到IT自动化对数据中心运维的重要性,共同推动IT自动化在中国的发展。
EDS数据中心成功实施IT自动化的案例
EDS从5年前开始部署IT自动化解决方案,取得了相当显著的成效。今天,EDS已经是全世界最大的IT自动化成功案例,通过采用Opsware公司的 IT自动化解决方案,EDS对全球一百多个数据中心的65000台服务器和20000多台网络设备实现了自动化的运维操作管理,对整个基础设施每天提供多项自动的配置检查、健康检查、合规审计,通过自动化这些过去因为人力资源的问题无法完成的工作,确保了整个IT环境的配置合规和安全合规,消除了配置错误、版本不统一、软件过期等可能带来的多重故障隐患,并减少了人为操作可能带来的故障,将一级故障发生的比率降低了近百倍,大幅提升了数据中心的可用性。在提升可用性确保安全生产的同时,EDS还通过自动化手段大幅提升了运维的效率,将日常变更和标准应用软件的安装自动化,并整合网管监视系统和工单系统,实现部分流程的自动化,从而使EDS可以做到对其外包客户承诺在接到增加服务器请求后两小时内提供新的已安装好的可用服务器。
采用IT自动化使得EDS开始摆脱多年来困扰其的运维复杂性问题,更多的技术人员开始从日常的重复性操作工作中解放出来,将主要的精力放在系统、流程的优化上面,整个运维工作开始步入良性循环,EDS也为自己设定了更高的零故障(Zero Outage)的目标。
那么,作为同时管理一百多个数据中心的全世界最大的“IT运维部门“,EDS能成功部署IT自动化的秘诀是什么?它是如何应付客户所托管的数据中心由于设备数目庞大,厂商众多,系统结构复杂,配置不一,地域分布全球,管理操作者繁多,权限控制复杂等等所带来的运维挑战的?
对于这个问题,EDS负责基础构架建设的副总Ray Cline的回答是“… vision to automate IT operations platform, not just a point tool (… IT自动化运维平台,而不是一个单点工具)”。他解释道:单点自动化工具在小规模单一厂商的环境中可以有效完成某些操作,但是对于EDS这样的大型多数据中心的运维而言,单点工具们都存在某些严重的缺陷,如无法并发作业,或是无法有效的验证,审批和控制并发作业,可能使得某个错误指令得以批量执行,造成灾难性的后果。同时,在实际的运维中,很少是对大批量相同配置的设备实施相同的变更,更多是对相关,但配置不同的小批量设备实施类似但指令不完全雷同的操作,单点工具由于缺乏配置上下文信息而难以胜任此类的操作。最后,单点工具不支持跨领域的操作序列,而这往往是日常运维的常见形态。
Ray Cline进一步解释道,所谓IT自动化运维平台,是可以操作和管理复杂IT基础设施的系统。IT的复杂性来源于人——不同领域,不同角色或岗位操作者,系统——多厂商,分布式,面向服务松耦合部署,流程——涉及多个系统,多数据源的操作序列。所以,IT自动化运维平台必须能跨厂商,地域和系统,实现配置数据,运维知识与操作指令的有机整合。这听上去有些理想化,但现实中EDS 通过采用Opsware的解决方案,成功的构建了适应上述复杂性的自动化运维平台,使EDS能够克服多个大型数据中心运维上的重重难题,满足客户在系统稳定性和响应速度上面越来越苛刻的要求,为他们提供第一流的数据中心运维服务。
近一年来桥梁倒塌的新闻时见于报端,这些倒塌的桥梁中,有的是刚刚建成即告倒塌,有的是忽遭外力的异常作用而坍塌,更有的是好好地忽然间就自己倒掉了。作为一个IT从业人员,每看到这样的新闻,我都会想到我们所碰到的IT系统中出现重大业务中断的情形。事实上,桥梁是最稳定的力学系统之一,相比之下,由众多不同组件组成的IT系统比桥梁更为复杂,而且技术和设备的更新速度很快,并要承受各种频繁的日常变更,因而要比桥梁脆弱得多。可以说这个世界上每天都会出现IT系统中断甚至崩溃的情况,保证IT系统的稳定安全运行也比桥梁的养护要困难得多。
桥梁的坍塌往往酿成严重的人员伤亡,IT系统的中断虽然不会带来人身的伤害,但会给企业带来重大的经济损失和声誉上的损害,更会给IT运维人员带来巨大的心理压力和严重的挫折感。这种压力对今天中国金融业的IT运维人员来说尤为严重,甚至已经超出了大多数IT运维部门的承受能力。这一是因为金融业务特有的实时性和重要性,二则是因为中国金融业正在进行的数据大集中将运维压力高度集中了,这种集中并不是简单的累加关系,而是指数级的增长。因为在过去系统和数据分散的时候,故障的影响范围有限,而今天一次故障就可能影响到全国范围。打个不恰当的比方,桥梁倒塌造成1人伤亡,这样的新闻出100次可能也没人注意,而假如一次这样的事故造成100人伤亡,估计立即会变成全球媒体的头条新闻。而数据大集中就象是将全世界的桥梁都整合成一座桥梁一样,试想一下,要设计、建设、维修和保养这座桥梁,将是个多么艰巨的任务!
IT之外的人员经常会说,数据集中之后,一个数据中心里集中了那么多运维人员,运维水平、支持力度、资源供给都大大提高了,应该不会出事才对啊?其实,这样说对数据中心运维人员有些不公平。
首先是因为虽然IT系统的问题最终往往体现为运维中的生产事故,但实际的原因却非常复杂,其中有相当比例的问题是运维之外的、IT系统整个生命周期的前期工作引起的,比如说业务部门提出的需求不准确、业务或应用设计不合理、前期应用压力测试不充分、对业务量的预估过小、系统可靠性设计不达标等等,都会导致上线运行的系统无法满足实际运行时的业务要求,从而产生种种运行中的问题。尤其是近年来随着证券金融市场的火爆,各类业务交易量暴涨,不断冲击现有应用系统的承受极限,这类问题发生得更加频繁。这些并不属于运维范畴的问题一旦发生,在实际工作中往往难以非常清晰地界定,导致IT部门中的运维人员成为承接整个IT项目周期中所有问题的最后一棒,承担了一些本来不应该由运维人员承担的责任和压力。
另外,数据大集中后运维工作的复杂度和难度大大增加。这也并不是过去分散的运维工作的简单叠加,而是量变引起质变,其工作难度的增加几乎可以用聚变效应来类比。一方面是由于数据中心中集中了几乎所有的应用和系统,技术复杂度和关联度极高,有时哪怕有一项配置变更出错就会引发意想不到的重大故障。可能触发故障的事件的数量超出了 IT 能预知、应对甚至注意它们的能力,更不用说对它们进行预防;另一方面,运维人员的高度集中和专业化固然提升了整个银行的运维效率,但也带来了运维管理的高度复杂性。有经验的管理者都知道,人员的增加在很多时候不但无法带来效率的提升,甚至会直接导致工作质量的下降。就象最近很热门的《明朝那些事儿》这本书中所提到的,打架、打群架和战争完全不是一个概念,假如将过去的IT系统运维比作打架的话,今天的大型数据中心运维完全是一场大型的战争,所要求的技能和运作机制完全不同。在大型和复杂的数据中心中,靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,必须通过专业化、标准化和流程化的手段,以严格的管理和合理的人力资源结构来有效组织起各项运维工作,才能满足高标准的运维要求。
由此可见,要实现数据大集中后大型数据中心的安全生产,需要整个IT生命周期中各个环节共同作用,投产前的应用、系统的需求分析、设计是根源,验证和建设是保证,运维工作只是最后一棒,但也是周期最长,压力最大的一棒。
当然,作为IT运维部门,只能从自己能控制的部分入手,着重解决运维中面临的种种问题。当前大型数据中心运维的主要问题是系统架构和人员管理方面的高度复杂性给数据中心的运维带来了各种各样的延迟效应,这些延迟产生于基础设施、团队、组织或流程中存在的各种缝隙之中。虚拟化、合规审计、外包、新应用程序的部署、ITIL 标准化、灾难恢复、技术升级和配置、数据中心合并、打补丁和安全——所有这些主要运维工作都涉及到多个团队、多个流程步骤、多种技术构成和多种互相依赖关系,因此便增加了延迟。
由于对应用环境缺乏统一的全面认识,在重复手工执行大量日常运维工作上消耗了大量的人力资源,在流程调度协调上付出太多的沟通成本,导致IT运维中的延迟随着所管理的设备和应用的增多、流程和工具的增加而越来越多。有时为了能更好提升运维水平的运维管理系统也同样会带来更多的延迟,比如网管系统上线后大量的事件告警使运维人员疲于应付,工单系统上线后则使文档和协调工作量大大增加,延迟效应不降反升。所有以上这些延迟效应累积起来,最终反映为整个IT系统的可用性指标难以提高。
那么如何克服这些延迟呢?到目前为止,解决这类问题的唯一解决方案似乎就是“更多”:更多的人力、更多的基础架构、更多的资金、更多的工具、更多的流程、更多的规范和更多的时间。但是,这些更多的规范、人力和流程往往反而使情况变得更糟,使问题变得更不确定、更复杂,成本也更高。运维标准的提高会导致人力资源的成倍提升,但实际情况是人力资源的配给无法与运维标准同步提升,导致运维标准会逐步与实际工作脱离。拿规范来说,在有些IT系统中,虽然有很多的配置规范和安全规范,但却只是一叠叠的纸面的规范,甚至干脆成了免责规范,出问题的时候会说没有遵循规范,但事实上根本没能配备可以检查和落实规范的人力。虽然可能每年都要进行相应的一些合规审计,也在这些审计工作上投入了大量的人力,但往往是集中突击,为审计而审计,但却很难对日常运行中的实际系统稳定性产生什么积极的影响。
近几年来,越来越多的IT运维管理者开始意识到,IT自动化可能是面对运维中各种延迟的唯一解决之道。IT自动化指的是IT运维工作的自动化,将日常IT 运维中大量的重复性工作自动化,小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,都可以由过去的手工执行转为自动化操作,从而减少乃至消除大多数运维中的种种延迟,实现“零延时”的数据中心运维。
IT自动化这个概念听起来有些超前,这恰恰是因为IT运维是今天世界上自动化程度最低的行业之一,IT运维中绝大多数工作都是手工操作。举个最简单的例子,一个简单的配置变更也往往需要操作员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在数据中心中往往每天都在进行,占用了大量的运维资源。
其实也有某些局部的IT自动化手段是在许多IT系统中被广泛采用的技术了。举个最简单的例子,可能大多数企业都已经实现了杀毒软件的自动升级和自动安装,补丁的自动检查和安装也有非常广泛的应用。这些都是最简单的一些IT自动化技术,往往通过一些小型工具软件实现一些运维操作的局部自动化,但这些点状式的自动化工具虽然可以减少特定系统、团队或某些任务中的简单延迟,对减少团队间和跨越系统竖井的任务的延迟却无能为力。实际上,经验证明,IT自动化从点状式的工具入手可以解决某些局部的运维效率问题,但无法促成整个数据中心运维效率的提升和整体延迟效应的降低,甚至可能会增加一个组织内的整体延迟,导致 IT 运行环境更趋复杂化。
因此IT自动化的部署要从为消除整个数据中心的各种延迟提供平台的角度做全局化考虑,提供多维度、层次化的自动化能力。
首先是要建设对基础设施的操作(包括安装、变更、检查、审计、备份等)提供自动化的运维操作管理平台,将目前各种离散的操作者直接面对设备进行各种日常操作的运维模式转变为操作者通过一个统一的运维操作控制管理平台来进行操作,弥补传统网管监控系统重“监”轻“控”的不足,加强IT运维中的控制力:一方面通过操作自动化提升运维人员对系统的控制能力,提高运维效率并减少操作失误带来的故障,另一方面通过对所有操作的记录和审计的自动化提升管理人员对操作者和整个系统的控制和监管能力。同时实现配置规范、安全规范的自动化合规审计,通过建立合规检查的实时反馈机制,将大量的规范从锁在柜子中的文档变为实时可以查看的活的规范,确保配置规范的严肃性和有效性,从而将合规审计从突击性的文档整理转变为对运维真正有实际监督和提升作用的重要工作。
再就是通过自动化手段,自动发现和更新整个跨层 IT 基础设施(软件应用程序、服务器、网络以及存储基础设施)的数据,自动完成维护CMDB中各种CI数据准确性的流程,通过与自动化运维操作管理平台的整合,主动自动记录数据中心环境中的运维变更,从而克服手工维护CMDB带来的种种问题,提供一个权威和精确的IT数据模型,使不同的运维团队可以面对统一的、准确的基础设施环境视图,从而消除各团队单一视角带来的各种延迟。
还有最重要的一点,就是要从流程的角度入手,提供能够整合IT运维管理的各个团队、各个系统和各种工具的自动化调度平台。近年来迅速流行的RBA-运维手册自动化(Run Book Automation)就是从流程自动化的角度入手,将数据中心运维中的各项工作都制作成可重复利用的自动化模板和工作流,并整合工作流中会涉及到的各种 IT运维系统,如网管监视系统、工单系统和运维操作管理系统等,实现大量日常运维工作全流程的自动化,为复杂的变更和运维工作提供统一标准的调度,从而可以保证任何 IT 流程都不会偏离已确立的流程标准。
这种IT自动化并不是美好的空想,而是已经应用在了许多IT系统之中,这些先行者也已经体会到了IT自动化带来的巨大收益,世界上最大的数据中心外包运营商EDS就是最好的例证之一。
国内金融业的大型数据中心,承载的交易笔数往往要远高于国外的数据中心,面临的运维压力也有过之而无不及,但技术人力资源的配备由于历史和机制的问题却并不能尽如人意,人力资源的配置也不尽合理,比如说近年来招收的IT人员,由于银行的吸引力,学历往往很高,但大多数却在从事非常简单的重复性操作工作,长此以往,人才的稳定性难以保证。因此笔者认为,IT自动化对中国金融业的意义比国外企业更为重要。IT自动化的成功运用,对某些国外数据中心来说,可能意味着成本的降低和流程的加速,但对中国可能更多意味着使许多“不能”成为“能”,使“没有”成为“有”,也是一个量变和质变的区别。
篇幅所限,言犹未尽,在此衷心地希望越来越多的金融业IT人士能够意识到IT自动化对数据中心运维的重要性,共同推动IT自动化在中国的发展。
EDS数据中心成功实施IT自动化的案例
EDS从5年前开始部署IT自动化解决方案,取得了相当显著的成效。今天,EDS已经是全世界最大的IT自动化成功案例,通过采用Opsware公司的 IT自动化解决方案,EDS对全球一百多个数据中心的65000台服务器和20000多台网络设备实现了自动化的运维操作管理,对整个基础设施每天提供多项自动的配置检查、健康检查、合规审计,通过自动化这些过去因为人力资源的问题无法完成的工作,确保了整个IT环境的配置合规和安全合规,消除了配置错误、版本不统一、软件过期等可能带来的多重故障隐患,并减少了人为操作可能带来的故障,将一级故障发生的比率降低了近百倍,大幅提升了数据中心的可用性。在提升可用性确保安全生产的同时,EDS还通过自动化手段大幅提升了运维的效率,将日常变更和标准应用软件的安装自动化,并整合网管监视系统和工单系统,实现部分流程的自动化,从而使EDS可以做到对其外包客户承诺在接到增加服务器请求后两小时内提供新的已安装好的可用服务器。
采用IT自动化使得EDS开始摆脱多年来困扰其的运维复杂性问题,更多的技术人员开始从日常的重复性操作工作中解放出来,将主要的精力放在系统、流程的优化上面,整个运维工作开始步入良性循环,EDS也为自己设定了更高的零故障(Zero Outage)的目标。
那么,作为同时管理一百多个数据中心的全世界最大的“IT运维部门“,EDS能成功部署IT自动化的秘诀是什么?它是如何应付客户所托管的数据中心由于设备数目庞大,厂商众多,系统结构复杂,配置不一,地域分布全球,管理操作者繁多,权限控制复杂等等所带来的运维挑战的?
对于这个问题,EDS负责基础构架建设的副总Ray Cline的回答是“… vision to automate IT operations platform, not just a point tool (… IT自动化运维平台,而不是一个单点工具)”。他解释道:单点自动化工具在小规模单一厂商的环境中可以有效完成某些操作,但是对于EDS这样的大型多数据中心的运维而言,单点工具们都存在某些严重的缺陷,如无法并发作业,或是无法有效的验证,审批和控制并发作业,可能使得某个错误指令得以批量执行,造成灾难性的后果。同时,在实际的运维中,很少是对大批量相同配置的设备实施相同的变更,更多是对相关,但配置不同的小批量设备实施类似但指令不完全雷同的操作,单点工具由于缺乏配置上下文信息而难以胜任此类的操作。最后,单点工具不支持跨领域的操作序列,而这往往是日常运维的常见形态。
Ray Cline进一步解释道,所谓IT自动化运维平台,是可以操作和管理复杂IT基础设施的系统。IT的复杂性来源于人——不同领域,不同角色或岗位操作者,系统——多厂商,分布式,面向服务松耦合部署,流程——涉及多个系统,多数据源的操作序列。所以,IT自动化运维平台必须能跨厂商,地域和系统,实现配置数据,运维知识与操作指令的有机整合。这听上去有些理想化,但现实中EDS 通过采用Opsware的解决方案,成功的构建了适应上述复杂性的自动化运维平台,使EDS能够克服多个大型数据中心运维上的重重难题,满足客户在系统稳定性和响应速度上面越来越苛刻的要求,为他们提供第一流的数据中心运维服务。