邮箱:support@zcecs.com
地址:北京市西城区南滨河路27号贵都国际中心A座1111室
一、运维规划的内容
数据中心基础设施运维规划应至少包括运维目标、管理界面、运维活动和运维模式、运维团队、管理体系、路线图这6个要素。
1、运维目标
应基于数据中心运营的目标制定明确的基础设施运维核心目标和指标,进而才能开展运维规划的后续一系列工作。不同行业、类型的数据中心,其运营目标并不一致,由此在系统可用性、事件响应和恢复时间等关键指标的要求上也不一样。数据中心业主要深刻理解自身企业的经营目标,在此基础上设定合理可行的数据中心运维的目标和指标,如系统可用性99.99%,事件恢复时间≤30in等,而不是“保障7*24h运行”这样的粗浅描述。
2、工作界面划分
现代新型的数据中心规模大,系统复杂,涉及管理的团队也多。一般的,中大型数据中心会涉及物业、IT维护、基础设施维护这3个团队。基础设施维护团队和其他2个管理团队都会有工作界面划分的问题。如果不能划分清楚分工的界面,就会造成责任不清和工作任务不明确的问题,对后面规划的团队配置、管理体系等都有很大的影响。
通常,可以从2个角度来考虑工作界面的划分。一是按专业界面划分,即从电气、空调暖通、消防、网络这些专业划分的角度,考虑按系统的特点和层级进行划分。如配电系统35kV和10kV之间或10kV与380V之间的界面;空调冷源与生活冷源/供热的界面等。二是从物理空间界面来划分。比如公共空间维护与机房空间维护的界面;数据机房与辅助区的维护界面等。
从实践上来看,2种界面的划分方法都有各自的道理和现实基础,没有孰优孰劣,而且也有不少数据中心是2种划分方法都采用。数据中心规划的人员要注意能在各个维度将基础设施运维和其他运行管理团队的工作界面划分清楚就行,避免发生遗漏。
3、运维活动和运维管理模式
在明确了基础设施运维管理的界面后,要全面地列举在管理范围内会有哪些运维活动,估算每项运维活动的工时数。全面列举运维活动是建立运维管理体系的基础,合理预估每项活动的工作量是建立运维团队的基础。
一般的运维活动包括监控值守、日程点检、设备操作、应急处置、设备维护保养、旁站监督、应急演练、人员培训、设备调优等。可以参考《数据中心基础设施运行维护标准》《数据中心基础设施维护规程》等标准规范、设备制造商的维护建议或以往的维护经验来确定这些维护活动及相应的工作量。
在明确了有哪些运维活动后,要考虑这些活动由哪些人员来完成,完成这些运维的活动需要什么能力和资质的人员。规划人员必须结合企业的运营目标、自身特点、人力资源政策、地区条件限制、供应商支持能力等因素确定运维的模式——是自己组建维护团队还是进行服务外包。2种运维模式有其各自的优势,应评估数据中心自身的情况和需求后进行选择。
自运维模式的优势:员工归属感强,有责任心;管控力度大,责任直接到人;管理更透明,每个环节都可直接管理;管理更加灵活,容易调整变化。
服务外包模式的优势:以商业合同的方式明确权力、责任和义务,责任清晰,风险可控;人员储备较完善,各岗位出现人员不稳定因素时,后备人员及时接替;拥有成熟的运维管理体系,根据客户需求量身修订,实现快速的体系交付工作;拥有完善的培训体系及针对性强的课程设置,有效、快速地提高运维人员能力;丰富的项目运行经验,在不同项目间分享,提升运维人员的经验。
在实践中,各数据中心,特别是大型数据中心,往往采取2种模式结合的方式,即部分工作由自有员工完成,部分工作由服务外包团队完成,来达到一定的成本和质量间的平衡。
4、运维团队
完整的数据中心运营应包括基础设施运维、IT运维、经营管理、物业安保等团队。本文仅着眼于基础设施运维团队。该团队的人员应包括管理、工程、行政支持、维护操作人员。
团队的规划思路应遵循如图1所示步骤,即从生产活动推导出需要执行的岗位,通过活动的工作量推导出每个岗位需要的人数,通过梳理岗位间的管理关系来制定组织架构。
5、运维管理体系
运维管理体系既是数据中心运行过程中所有管理规则和标准的总和,也是数据中心所有人员——从最高层管理者到一线操作人员,都必须遵守的一致性的工作规范。数据中心运维管理体系的建立有其自身的规律和方法,而且不同的数据中心根据其企业特点和业务需求,所采用的体系架构也大相径庭。对此,本文不做详细的阐述。但需要强调的是数据中心运维管理体系是所有运维规划中最核心、最重要也是最复杂的一个要素。建立或者评估一个运维管理体系是否有效,应遵循以下3个原则。
(1)积极主动原则,即数据中心在管理和操作方面需具备持续改进的管理机制。数据中心现场的活动都纳入管理及评估之中,并且遵循提前制定的流程和程序执行。积极主动原则的证明包括所有现有和预期的活动均按照书面制定的流程及适当的程序开展,并留有记录,以便进行定期审查和更新。
(2)执行到位原则,即数据中心现场的活动始终遵循流程和程序。仅有流程和程序并不能提高运行的效率,除非所有的相关人员(数据中心员工和外部相关方人员)都始终严格遵守预定的管理要求。该原则的证明是,无论执行者是谁,一项任务或工作始终以同一方式完成。
(3)通告周知原则,即组织或个人应具备实现行为的相关知识,全体员工熟悉并了解他们可能需要执行的任何活动的所有流程和程序与数据中心运维相关的知识,如系统运行模式、设备特性、系统配置、维护经验等能在组织内部有效共享。该原则的证明是,所有数据中心的信息资料、配置改变、管理要求变化、经验总结等都通过有效的程序能够及时地发布给员工并根据需要进行培训。
6、路线图
运维规划的最后一个要素是编制一个科学、可落地执行的运维工作开展的路线图。该路线图指在数据中心正式投产运营之前的一个从无到有的运维落实实现的步骤,包括分阶段的目标、阶段任务分解、里程碑、资源投入计划、资金投入计划等。该计划用来指导数据中心管理者以合理高效的方式推动从零开始一步一步地做好运维的准备,以实现“数据中心从投产运行的第一天起就具备预定的运维能力”的目标。