邮箱:support@zcecs.com
地址:北京市西城区南滨河路27号贵都国际中心A座1111室
本技术规范按照 GB/T1.1-2009 给出的规则起草。
本技术规范由中国质量认证中心提出。
本技术规范由中国质量认证中心发布,版权归中国质量认证中心所有,任何组织及个人未经中国质量认证中心许可,不得以任何形式全部或部分使用。
主要起草单位:中国质量认证中心,中国计量科学研究院。
参与起草单位:迪佑拂科技咨询服务有限公司,中计测(北京)技术服务有限公司,上海德衡数据科技有限公司,国富瑞数据系统有限公司,北京中航信柏润科技有限公司,太平洋保险集团,兴业银行数据中心,太平保险集团公司,中国人寿保险上海数据中心,宝信数据中心,国家电网有限公司信息通信分公司,中央国债登记结算有限责任公司上海数据中心,上海银行,稠州银行,上海通联金融科技发展有限公司。
主要起草人:武彤、郑涓、沈庆飞、陈凯、李安香、王叶楠。
参与起草人:肖建一,徐钧,李国刚,刘鹤,季玮恺,张岩,欧阳述嘉,冷飚,曹广智,程杰,郑倚
志,徐骏,程平,蔡健,叶迎,夏亮,包敏慧,陆镔,项元伟,柏林,鲍雍荣,赵晨阳,陆磊。
数据中心基础设施运行与维护评价技术规范
1 范围
本规范规定了数据中心场地基础设施运维中的相关术语、定义、管理要求、测试方法、现场审核及见证测试。
本规范适用于企业自用数据中心、第三方托管数据中心、互联网云数据中心等含有基础设施环境的数据中心,包括:基础网络设施、供电系统、制冷和环境控制系统、消防系统、安防系统、监控和设施管理系统等基础设施。
2 规范性引用文件
下列文件对于本文件的引用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 33136 信息技术服务数据中心服务能力成熟度模型
GB/T 51314 数据中心基础设施运行维护标准
ISO 20000 信息技术服务管理体系
ISO 27001 信息安全管理体系
3 术语和定义
GB/T 33136、GB/T 51314、ISO 20000、ISO 27001中界定的以及下列术语和定义适用于本文件。
3.1 术语
3.1.1
基础设施 Infrastructure
数据中心内为信息技术系统提供运行保障和运行环境的场地设施。包括容纳 IT 系统的主机房,支持IT 系统运行的供电系统、制冷系统、消防系统、安防系统、监控系统及其路由等配套设施及维护 IT 系统的辅助设施。
3.1.2
运维管理 operation and maintenance management
对数据中心基础设施进行日常运行和维护,确保各项基础设施系统安全稳定地运行。运维管理包括制定运维制度和计划、执行运维计划、响应基础设施故障、突发事件等紧急情况。
3.1.3
生命周期 life cycle
数据中心从投产到经济寿命结束的全过程。但也有将投产前的规划期、设计期、建设期、测试验证期作为生命周期一部分(孕育期)的说法。
3.1.4
测试验证 commissioning
验证并记录数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求的过程。
3.1.5
健康评估 health assessment
全面系统性地对机房设施现有使用状态、设备运行情况、运维管理制度及流程等进行全方位的检查评估。
3.1.6
预防性维护 preventive maintenance
为降低设施发生失效或功能退化的概率,按预定的时间间隔或按既定的准则实施的维护。
3.1.7
风险评估 risk assessment
针对运行的设备所面临的威胁、存在的弱点、造成的影响,以及三者综合作用所带来风险的可能性的评估,同时确定风险是否可容许的全过程。
3.1.8
容量管理 capacity management
对于基础设施在空间、电力承载能力、制冷能力等方面的评估,以满足IT系统和业务处理的需要容量。为了实现其目标,容量管理需要与业务及IT战略流程保持密切的联系。
3.1.9
资产管理 asset management
对于数据中心基础设施中每个资产建立独有的标识,并详细进行资产描述、制造商、型号、安装日期、保修期、使用状态等信息的记录管理。
3.1.10
可用性 availability
在所有要求的外部资源得到提供的情况下,数据中心在规定的时刻或规定的时间段内处于能执行要求的功能状态的能力。它是衡量数据中心等级、运维水平的重要指标。
可用性的计算如下:
为直观起见,有时以年不可用时间来衡量数据中心的可用性。计算如下:
年不可用时间(小时)=8760×(1-可用性)。
3.1.11
绿色运行 green operation
数据中心中的制冷、照明和电气、用水、废弃资源处置等能取得最大化的资源效率和最小化的环境影响。
3.1.12
负载 load
连接在电路中电源输出端的设备。负载是把电能转换成其他形式的能的装置。
3.1.13
气流组织 air-flow organization
在机房内对冷热气流的流向按一定要求进行疏导和组织。
3.2 缩略语
下列缩略语适用于本文件。
PUE:电力使用效率(Power Usage Effectiveness)
WUE:水使用效率(Water Usage Effectiveness)
CUE:碳使用效率(Carbon Usage Effectiveness)
SLA:服务级别协议(Service Level Agreement)
MOP:维护作业程序 (Method Of Procedure)
SOP:标准操作流程(Standard Operating Procedure)
EOP:应急操作流程( Emergency Operating Procedure)
CMMS:计算机化维护管理系统( Computerized Maintenance Management System)
RTO:复原时间目标(Recovery Time Objective)
RPO:复原点目标(Recovery Point Objective)
4 评价方法
评价方法由现场审核(收集查看运维体系文件、历史运行记录、运维周期性统计分析报告、检测报告等)和现场岗位角色访谈组成。本文件所涉及的管理要求依据GB/T33136要求制定。
5 管理要求
5.1 战略管理
数据中心应建立管理方针或战略目标,并确保数据中心组织的各级人员得到理解和执行。
5.2 项目管理
数据中心应能够识别作为项目管理的技术设施运维场景,制定项目管理的程序并执行。
5.3 知识管理
数据中心应识别知识管理的范围,制定程序并执行。
5.4 创新管理
数据中心应建立创新机制,并通过创新管理提高运维能力。
5.5 财务管理
数据中心应编写运维财务预算,应对预算执行情况进行跟踪监督,根据规定的时间间隔进行财务核算和成本分析。
5.6 人力资源管理
数据中心应建立对运行维护的各类人员的能力和管理制度制定成文件,包括招聘、资质管理、绩效考核、团队建设等。各类人员应持证上岗,特定岗位的人员应满足法定要求。数据中心应按照当前和未来工作的需要,制定人员培训计划,并保留培训记录。对数据中心人员宜进行绩效考核。
5.7 架构与技术管理
对数据、应用、基础设施等架构与技术实施生命周期管理,在架构与技术引入的收益和使用的风险之间取得平衡。
5.8 监控管理
数据中心应提供独立的监控调度指挥空间。针对多数据中心管理,除本地具备监控调度指挥室外,宜具有区域覆盖或总控总调监控管理团队。监控中心值守人员应为7x24小时值班制度,应根据值班管理文件,值班人员不得长时间离开监控岗位,应根据警情,通报给运维人员处置,紧急情况可协助处置。
为保障监控工具的功能的完整性易用性可靠性,要求提供持续的改善维护管理制度。
5.9 值班管理
数据中心应将值班岗位人员的职责、工作记录和行为制定成文件。值班人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。接班人员未到岗时,应留置到替班人员到岗,如果替班人员超时规定时间未到岗,应及时汇报。
运维管理团队应根据数据中心的等级和服务要求,安排专职人员,值守设施监控系统、消防系统、安防系统。A级数据中心应7*24小时有人值守,其他等级宜7*24小时值守。非业务运行期间或中小规模数据中心可远程值守或自动模式。
5.10 作业管理
数据中心应制定日常巡检和预防性维护计划,按照规定执行并记录。日常巡检和预防性维护计划的周期和项目,可以按照设备供应商的建议。关键基础设施设备在各种情况下的常用操作应制定标准操作流程SOP,数据中心关键基础设施设备的每次维护、维修、安装操作,应制定MOP,标准操作流程和标准维护流程应得到批准后执行。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,制定预防措施或预案。
5.11 服务请求管理
应建立接受用户请求和标准服务的渠道,并建立服务请求流程处理子程序。
5.12 事件管理
数据中心应制定事件管理程序,包括事件的分级、通知、目标时间、升级、复发事件的策略,应明确事件关闭的策略。
5.13 问题管理
运维团队应针对问题找出导致已发生事件的根本原因,提出解决措施或纠正建议,防止同类事件的再次发生。暂时无法查明的问题,应提供给事件管理临时解决方案;原因查明但无法解决的问题应采取规避的措施解决问题。数据中心应保存问题处理的记录。
5.14 变更管理
数据中心应对所有类型的变更实施审批后执行,可按照变更请求的分类,采取不同的审批形式。任何对生产环境的改变均应考虑控制风险,编写变更方案,变更方案至少应包括详细的实施方案、风险点及应对措施、回退方案、实施时间计划等。变更方案应经过审批方可实施。对于风险可控的变更,可以实施简化变更管理流程。运维团队应建立紧急变更程序,并应严格控制该程序的适用范围。
5.15 资产与配置管理
数据中心应建立完整及实时更新的资产数据库,至少应包括所有关键基础设施设备的清单,应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。资产管理应覆盖工具及计量器具、备品备件。数据中心应建立标识标签管理系统,应按照规定的周期对资产进行盘点。
5.16 服务级别管理
明确运维团队所能提供的服务目录,以及与基础设施所制成的IT运维相关方达成一致的服务级别协议,保证服务能力符合相关方需要,且可衡量。
5.17 可用性管理
确保基础设施的可用性满足业务运行的需求,并持续优化。
5.18 容量管理
运维团队应与IT部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月至36个月周期的基础设施可支持IT需求容量表。
当场地基础设施不能满足IT增长的需求时,应提前制定并上报扩容计划。
5.19 能效管理
数据中心运维团队应在确保信息系统及其支撑设备安全运行的条件下,最大限度地节约资源并保护环境,在取得最大化的资源效率的同时造成最小化的环境影响。了解国内外数据中心节能最新科技成果、发展趋势、成功案例等,熟悉当地政府数据中心相关用能政策,最低要求需满足当地政府节能降耗相关政策标准。
数据中心运维团队应监测并记录数据中心在不同工况及不同外界气候条件下的PUE、WUE及综合CUE的变化情况,持续跟踪和分析趋势,持续优化节能运行方案。
5.20 业务连续性管理(应急管理)
基础设施运维业务连续性管理(应急管理)应面向其所服务的IT业务,与最终支撑的业务服务连续性保持一致。
确保在灾难发生之后基础设施和IT 服务能够在规定的时间内得到恢复,从而支持总体的业务连续性要求。
应建立、实施和保持一个正式的、形成文件的业务影响分析和风险评估过程。对场地、设施及服务存在的可能影响运维目标和持续提供服务能力的风险进行识别、分析和评价,并进行业务影响分析,确定RTO与RPO,对评估出风险进行处置,并按照风险发生的可能性以及发生后果的严重性制定应急预案。
应急预案应确保对应应急场景下的RTO与RPO的实现。
运维团队应针对可能出现的各种严重事件,制定应急操作流程EOP,以便在该事件发生时,运维团队能采取正确的操作程序,以防止事件扩大为严重故障。
应按计划的时间间隔或者当运营环境出现重大变化时演练和测试其应急预案和恢复程序。应行成正式的演练总结报告,内容包括输出结果、建议和实施改进的措施。
主要包括:
• 沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;
• 跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。
• 模拟演练:在确保生产安全的前提下,模拟真实中断场景,进行实际操作演练。可结合某些特殊工作来开展此类演练。
应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。
5.21 供应商管理
应该按照数据中心基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。规范供应商管理,确保供应商向数据中心提供优质的外部技术资源和支持
所有供应商到达场地执行维护程序之前,应通过场地相关规程的培训,获得场地运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。
供应商的每次场地维护活动都应该提交现场服务报告并存档。
运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。
应设立供应商管理文档, 记录所有供应商的联系方式、服务级别协议(SLA)、工作范围、针对设
施的培训和认证情况等信息。
5.22 信息安全管理
数据中心的门禁系统、各类监控系统、环控系统、访客系统、DCIM、DCOM等各类弱电系统是支持数据中心运行的关键系统,应制定并采取必要的安全控制措施。针对信息资产在运行环境中所面临的风险,制定信息安全策略和措施,将风险减少至可接受的程度,从而保障信息的可用性、保密性和完整性。
5.23 健康环境管理
针对物理环境制定安健环管理策略,实施处置措施,实现人员、环境等方面的保障,避免重大环境或人员伤害事故。
5.24 文档管理
通过规范文档各生命周期的活动,确保文档处于有效管理的状态。
5.25 评审管理
通过建立重大事项评审机制,做好事前风险控制,降低数据中心运营风险。
5.26 审计管理
合理规划和管理数据中心审计,从而控制运营管理的潜在风险。
5.27 持续改进管理
通过对支持IT服务的基础设施运维服务识别并实施改进,实现服务能力持续改进、提升。
5.28 职能管理
通过组织架构设置和岗位职责的设定,确保数据中心各项职能有效落实,管理目标得以实现。
5.29 关系管理
加强数据中心与其客户、监管或上级机构、合作伙伴、供应商、政府单位等相关方之间的沟通与关系维护,实现互利双赢。
5.30 合规管理
识别外部法律法规、监管部门对数据中心的要求,合理规划并落实,从而控制潜在风险。
5.31 风险管理
数据中心运维团队,应充分识别数据中心运行中的外部不可控风险对数据中心运营的影响,定期评估已识别风险的影响变化,并提高运维团队的认知范围识别可能新生的风险,并基于最新的评估制定和更新预案,以便采取有效措施,消除或控制风险的影响。通过考量不确定性及其对目标的影响,采取相应的措施,提高风险应对的效果。
5.32 绩效管理
保证数据中心各级组织及员工的产出与数据中心目标保持一致,通过改善组织及员工工作绩效,驱
动数据中心战略目标实现。
5.33 组织文化管理
通过对组织文化的梳理、深植和持续建设,确立数据中心的价值核心,为数据中心健康发展创造优秀的文化环境,提供有力的思想保障和行为保障。
6 运行
依照GB/T 51314-2018《数据中心基础设施运行维护标准》第4章要求*。
*数据可引用自依据《CQC1312/CQC1324数据中心场地基础设施认证技术规范》或《CQC1313/CQC1325信息系统机房动力及环境系统认证技术规范》出具的第三方检测报告,要求第三方测试报告报告有CNAS及CMA标识。
7 维护
依照GB/T 51314-2018《数据中心基础设施运行维护标准》第5章要求*。
*数据可引用自依据《CQC1312/CQC1324数据中心场地基础设施认证技术规范》或《CQC1313/CQC1325信息系统机房动力及环境系统认证技术规范》出具的第三方检测报告,要求第三方检测报告报告有CNAS及CMA标识。
8 评价等级
评 价 等 级 分 级 方 式 参 照 《 CQC1312/CQC1324 数 据 中 心 场 地 基 础 设 施 认 证 技 术 规 范 》 及
《CQC1313/CQC1325 信息系统机房动力及环境系统认证技术规范》制订,并依据数据中心基础设施运维
评价对象特性分为四级。
评价等级全部为四级划分见表 1,分别为:
L1 基础级:基础式管理,具备数据中心运行的基本运维功能特征;
L2 标准级:流程管控,为进一步提升协作能力和运行质量,建立管理程序;
L3 增强级:规范运维管理和运维执行的过程,推动标准化流程化进一步落地,强化风控管理和提高运维效率实现多维联动;
L4 卓越级:精细化管控,在规范级的基础上进一步细化管理颗粒度,实现全周期全场景过程数据的监测和采集,基于这些数据支持管理提高优化精度,推动运维团队理解运维所支撑的业务战略规划,推进服务导向的运维模式(可转变为运营)。
针对三大管理领域的 33 个管理子域,按照 L1~L4 级别的总体要求,划定等级的评定范围和基本要求。
针对管理域审核项评定的认证等级应同时满足:达到认证目标等级的分值区域;满足认证目标等级的必须满足项。详见表 2。