神州数码主动式IT运维服务:给IT系统做体检
“实在不好意思,不能和你们聚会了。公司的一个系统瘫痪了,现在还找不到原因,整个IT部门都在进行‘尸检”一一排查,我马上要赶回公司。你们也知道,干我们这行的,这种事情多,没办法。”周未聚会上,刚在某传统行业世界500强公司当上IT主管的刘建军对朋友们抱歉地说。
当刘建军赶到公司现场时,上到公司老总,下到销售代表,都已经急得跳脚,货发不出去,款收不回来。刘建军除了安慰老总马上尽快搞定外,面对突发复杂的情况带来的压力,也有点慌乱,但他只能一边亲自逐步排查,一边拿起了抢修电话叫技术专家过来共策共力。
最终,问题在凌晨2点时,得到了排除,原因出在系统软硬件兼容性上,造成了系统崩溃,服务器宕机,从下午5点到凌晨2点,短短9个小时的时间,这次故障给公司带来了直接二百多万的订单损失,还不算间接影响。
问题解决后,凌晨3点公司主管IT系统的老总当即现场召集IT主管开会,对IT整个部门做出一系列严厉的行政处罚,并提出要求,类似的情况,要平时把好关,将故障率降到最低,整个公司的信息化管理销售全依赖这套系统,老总清楚IT信息化带来便利的同时,完全杜绝出现故障是不可能的,问题的关键在于故障前的细心维护,快速反应,快速解决,他责成刘建军在最短时间拿出一个根本性的解决方案出来。
会议结束后,刘建军压力很大,的确,在现有的IT运维服务模式下,他不得不总去拯救濒临死亡的IT系统,得充当救火队长到处灭火。企业赖以运转的IT系统一旦出现故障,不仅不能提高效率,而且还影响正常业务的开展。而作为肩负保证IT系统正常运行责任的IT部门,面对的是由各种网络、主机、系统软件、中间件、数据库、应用软件等等组成纷繁复杂的系统。处于救火状态的IT主管,刚处理完财务系统的故障,办公系统又罢工了。众多的软硬件耦合在一起,系统的复杂性和维护量呈指数级上升。要实现系统可持续运营,太难了!
时间回溯到事故发生前,另一家世界500强公司的IT主管王彬却显得轻松自在,下午他陪女朋友游完一个小时泳,然后到了晚餐时间参加部门同事组织BBQ烧烤大会,其间他手机收到一条公司IT系统故障告警短信,当他正准备结束聚会赶往公司抢修时,短信提示故障专家已经远程处理,系统恢复正常。经过王彬电话向公司值班同事确认,部门BBQ烧烤大会照常举行,大家一起度过了一个轻松愉快的周未,相比刘建军充当救火队长的水深火热,是什么样的系统让王彬如此游刃有余?
话题要从王彬不久前参加过的《网管员世界》杂志社举办的“2009中国网络主管论坛”说起,在众多国内外厂商演讲中,会议上王彬他注意到神州数码提出的一个全新理念,面对现有的复杂IT网络与系统环境,传统的被动式IT维护已经显得捉襟见肘,而目前,以ITIL理念为指导,以IT运维专家为载体的“主动式IT运维服务”正应运而生。
在被动式IT运维模式下,由于没有预警服务,故障隐患不断集聚,异常情况出现后,直接负责人不能即时发现,IT部门不得不成为处理大量突发事件的“救火员”,无法提高工作效率。