检测评估-必要性、风险源与产生的原因
来源:未知 发布时间:2018-05-24 15:55 点击:
次
数据中心风险评估就是从风险管理的角度,运用科学的方法和手段,系统地分析数据中心所面临的风险及其存在的脆弱性,评估数据中心风险一旦发生可能造成的危害程度,提出有针对性的风险防范措施,为降低数据中心风险,将风险控制在可接受的水平,最大限度地保障数据中心安全运营提供科学的依据。
数据中心风险评估作为数据中心运营安全保障工作的基础性工作和重要环节,要贯穿于数据中心的规划、设计、建设、运营等各个阶段,是数据中心安全运营的重要手段之一。
在风险评估过程中,有几个关键的问题需要考虑。
首先,要确定保护的对象-资产是什么?
其次,资产面临哪些潜在风险?导致威胁的隐患所在?
第三,资产中存在哪些缺欠可能会造成风险的发生?
第四,一旦风险事件发生,会遭受怎样的损失或者面临怎样的负面影响?
最后,应该采取怎样的安全措施才能将风险带来的损失降低到最低程度?
解决以上问题的过程,就是风险评估的过程。
2.1检测评估范围
鉴于数据中心的规模大小、等级、用途不同,因此,具体的资产都不相同。作为数据中心管理者,在进行风险评估前,首先要确定评估的资产范围。
讲到评估范围,原则上应该包括所有与数据中心基础设施有关的且其运行状态会对数据中心安全性产生影响的设施设备和子系统。数据中心基础设施是指除IT设备之外的其它设施,可以详细划分为:建筑设施、机电设施(供配电设施、空调设施、给排水设施)、消防设施、智能化设施、其它辅助设施。见表2-1
表2-1 数据中心基础设施检测评估范围
建筑设施 |
建筑主体结构、隔墙、吊顶、架空地板等 |
机电设施 |
供配电系统 |
柴油发电机、变压器、UPS、电池、配电柜、电缆、桥架、工业连接器、机架PDU等 |
空调设施 |
冷水机组、水泵、冷却塔、精密空调、加湿器、风机盘管、蓄冷罐、板式换热器、水处理设施、阀门、管路等 |
新风设施 |
新风机、风管、阀门、管路等 |
消防设施 |
消防报警主机、烟感、温感、消防钢瓶、极早期报警主机、喷头、管路等 |
智能化设施 |
视频监控系统 |
摄像机、编码器、解码器、存储设备、监控主机等 |
门禁系统 |
门禁控制器、读卡器、电磁锁、出门按钮、线路、控制主机、控制平台等 |
入侵报警系统 |
电子围栏、双鉴探测器、玻璃破碎探测器、报警主机等 |
BA系统 |
DDC控制器、流量传感器、温度传感器、湿度传感器、压力传感器等 |
DCIM系统 |
电力监控设施、暖通系统监控设施、环境监控设施等 |
布线系统 |
网线、光纤、配线架、理线器、适配器、尾纤、跳线、桥架、光纤走线架等 |
其它辅助设施 |
卫生洁具、日常运维工具、操作防护设施、 |
2.2 数据中心面临诸多风险和进行检测评估的必要性
风险检测评估者首先要清楚数据中心存在哪些风险隐患,这些风险隐患是如何产生的,表现形式和对数据中心会造成什么样的危害,这样才能在检测工作中这对不同的检测评估对象做到项目不遗漏,问题有针对性,也才可能在评估中提出合理的可行的整改意见。数据中心风险问题的产生是多方面的,表2-2所示为当前数据中心可能存在的风险源。
表2-2数据中心风险源
设施类型 |
风险名称 |
风险来源 |
建筑物及环境风险 |
建筑结构 |
地震 |
外部,不可预见 |
火灾 |
内部/自然,不可预见 |
水患 |
内部/外部,可预见 |
雷击 |
外部,不可预见 |
电磁干扰 |
外部,不可预见 |
虫鼠害 |
内部,不可预见 |
机房规划建设造成
大型设备移动出入困难 |
内部,可预见 |
机房设施风险 |
电力支持 |
市电质量,市电中断 |
外部,不可预见 |
供电系统规划设计缺欠
备用能源启动投入异常 |
内部,可预见 |
供电系统方案规划缺欠 |
内部,可预见 |
设备选用和参数设置缺欠 |
内部,可预见 |
供配电设备损坏 |
内部,不可预见 |
空调系统 |
空调系统规划设计缺欠
异常的温度和湿度 |
内部,可预见 |
设备选用和参数设置缺欠 |
内部,可预见 |
空调设备损坏 |
内部,不可预见 |
给排水 |
渗水 |
内部/外部,不可预见 |
管理风险 |
管理措施不当 |
内部,可预见 |
人为误操作 |
内部,可预见 |
下面我们从总体规划、设计建造、运维管理以及生命周期和扩容改造等五个方面对表2-2所列的风险源产生原因加以说明,当然,这些产生的原因也是机房专业检测评估的主要内容。
2.2.1规划设计问题
规划设计决定着数据中心的性能和优缺点,由于在规划设计中可能存在一些不确定因素,当然也包括决策者因调查研究不够和决策的失误,会在规划和设计中存在或遗留一些不尽完美的甚至是局部错误的方案。问题的严重性在于,规划设计遗留的问题大都是先天性的,很难改变或者是根本无法改变的。这些问题包括:
(1) 选址问题:
l 所选地址的自然环境:地震、沉降、自然灾害、温度、湿度、尘埃污染、洪涝、雷电、台风等
l 所选地址的资源条件:
电力供应:电网容量、是否有两路独立电网;
水源条件:给排水设施;
l 所选地址的配套环境
通讯状况:通信线路资源、资费和线路品质,光纤容量;
交通条件:铁路、公路、航空等。
l 所选地址的安全状况:
政治安全、军事安全、社会治安;
所选地址的周围环境;
人居环境:距军火库距离、距化工厂危险区域距离、距垃圾填埋场距离、距核电站危险区距离距强噪声源距离、距强电磁场距离等。
l 数据中心资源或能力的利用与可扩充能力:
各种资源的持续可用性、合理性;包括配电资源、制冷能力、网络资源、建筑场地空间、建筑承载能力;
可改造性,包括改造的经济性和可行性;
l 可维护性和服务可控性
运维管理权限、演练条件等;
(2)供电系统规划方案设计及设备选用问题
l 过度容量规划问题:
整个供电系统效率低下;
l 供电安全性等级及方案设计问题:
2N系统设计缺欠,存在单路径故障点;
UPS系统是2N系统,交流输入是N系统;
2N系统普遍缺乏物理隔离功能;
制冷系统冗余供电问题;
l 备用发电机问题:
柴油发电机自动启动问题;
柴油发电机自动转换转换问题;
柴油发电机连续运行能力与储油问题;
柴油发电机安装环境问题;
l UPS系统方案设计问题
UPS设备容量过度冗余问题:
工频机轻载时输入谐波增大和输入功率因数降低问题;
UPS输出在单电源负载前配置STS问题;
工频机UPS输入无源滤波器影响柴油发电机启动问题;
工频机UPS无源滤波器将谐波导入地线中,造成地电位差和影响IT设备稳定运行问题;
双交流输入与UPS双输入的配置问题;
电池规格型号选择与UPS对电池管理功能匹配问题;
l 各级配电开关设备选择及参数设置问题:
ATS及各级三相交流配电采用4极转换或切断问题;
直流UPS输出输出采用交流开关和交流电流保护器件问题;
电池输出采用交流开关和交流电流保护器件问题;
线缆规格选择问题;
配电系统断路器的选择性与级联保护和故障隔离功能功能;
断路保护开关重复设置问题;
l UPS输出隔离变压器问题;
成本、体积、承重问题;
启动短路问题;
l 零、地线设计问题;
终端设备零、地设计问题
(3)制冷系统规划方案设计和设备选用问题
l 空调制冷容量规划问题
热负荷统计计算方法问题;
过度规划造成空调设备运行效率低下;
机架布局问题;
l 机架功率密度与制冷方案问题
空调制冷方案在市电中断后不具备连续运行的能力;
制冷方案不支持高功率密度机架在市电中断后连续运行;
l 机架平均功率密度与最高功率密度问题
忽视机架平均功率密度与最高功率密度的区别;
市电正常供电时,高功率密度机架出现过热点问题;
l 气流组织问题
地板高度与静压箱要求;
空调设备布局和安装位置问题;
冷热通道布局问题;
机房中冷热气流混合问题;
空调回风问题;
l 空调设备运行参数设置问题
合理设置运行参数问题;
多台空调运行参数一致性问题;
多台空调运行管理问题;
l 室外机问题
容量与室内机容量匹配问题;
室外机安装条件问题;
室外机安装高度和距离问题;
室外机运行环境适应能力问题;
l 新风系统问题
新风容量问题;
新风质量问题
2.2.2 机房设计建造问题
l 场地规划问题
供电系统设备布局合理性问题;
主机房IT设备布局与优化空调制冷效果问题;
建筑平面和空间布局的灵活性和可扩展问题;
机房承重、层高、净高、隔断、围护、外窗、空调室外机安置问题;
l 系统可维护性和可修复性设计问题
设备布局、维护通道、维护空间问题;
线缆布局、线缆管路、、维护维修问题;
l 设备安装质量
规范各种设备编号问题;
规范配电设备和线缆编号和颜色标志问题
配电柜内各种开关、手柄、操作按钮标志问题
配电线缆连接规范要求和连接质量问题;
l 设备安装质量
规范各种设备编号问题;
规范配电设备和线缆编号和颜色标志问题;
配电柜内各种开关、手柄、操作按钮标志问题;
配电线缆连接规范和连接质量问题;
l 竖井问题
强弱电竖井与大楼强弱电竖井共用问题;
竖井线缆可修复可更换和可扩充问题;
l 机房辅助设备用电插座性能和安装问题要求
l 对电池系统的安装要求
承重问题;
通风问题;
电池单体的摆放、连接、安全防护和可维护可修复问题;
电池保护断路器问题;
l 消防系统问题
消防区的划分合理性(脆弱区和危险区)问题;
消防措施也必须具备冗余性和容错性;
机房的耐火等级要求问题;
机房布置与消防规范对疏散的要求;
消防的钢瓶间位置设置、机房泄压口的设置、排烟口的设置等问题;
l 机房对排风系统设计要求
排气量的计算的正确性;
排气管道的配置位置及电动密闭阀设置问题;
机房对防火封堵的技术要求
l 机房对电磁干扰的要求
机房屏蔽问题;
机房接地系统的设计和工艺问题;
l 机房对防静电的要求
机房地板的防要求
机房家俱机房家俱防静电材料要求;
l 机房照明系统要求
机房照明质量要求
照明灯布局的合理性
应急照明的设置合理性和冗余供电要求;
机房照明模式和控制
2.2.3运维管理水平问题:
l 运维团队建设问题
无专职维护人员;
维护人员一人多职、运维依赖厂商;
管理权限和界限不明确;
管理资源不可控;
l 运维管理制度问题
管理制度不健全;
系统文档不健全;
被动型管理、出现问题再去弥补、就事论事,存在严重的管理漏洞;
管理界限不清楚;
只维护关键设备,对外围配套设备、线缆、管道等等长时间不做维护;
l 运维管理人员技术水平和技能素质
运维人员不熟悉系统规划情况;
主要工作局限在对设备的维护上;
对监测监控信息和显示功能不熟悉系统和设备智能管理和通讯管理功能没
有得到充分的发挥;
缺乏专业知识或专业知识单一,管理水平不可控;
供电系统异常时,只知道在供电设备上查找原因,而最终不能解决问题;
环境指标异常时,不知道如何改变制冷设备设置和气流组织状态;
发生事故时简单地归结为设备问题,无法找出引发事故的真正原因;
简单地依照标准确定运维内容和判断系统运行状态;
不善于从变化的环境参数和设备性能参数中判断存在的隐患;
2.2.4生命周期问题:
据相关数据显示,我国现有的数据中心中,约有80%已运行了5~8年,如图2-2所示。

关键设备连续运行,设备或设备的某些部件老化,进入设备更新期。这使得多数机房处于危险运行,加快步入生命周期末端。
通常:UPS等大型电子设备的生命周期在10年左右;
电池:3~5年(实际运行数据);
电解电容:4~5年。
设备老化的后果:
l 设备功能降低,:
l 很可能在动态(设备关开机、例行维护、系统演练、市电掉电转换和恢复、保洁维护等)中发生故障;
l 设备元器件老化失效和焊点节点虚接造成突发性故障而使系统宕机;
l 设备管理系统需要升级;
l 电池失效电池组容量降低;
l 过滤器失效;
l 制冷系统管路阻塞;
设备更换升级,需要专业人员检测评估,包括升级改造的必要性和
可行性,并提出升级改造方案和详细流程。
2.2.5扩容改造问题:
IT技术迅速发展设备更新加快,以及用户业务快速增加,都可能使原数据中心数据中心容量不够,或者处理能力不满足要求,都会导致对数据机房改造及扩容需求, 是否进行和如何进行扩容改造,需要专业人员评估。
评估内容包括
l 系统是否需要扩容改造;
l 扩容改造存在的风险和可行性;
l 扩容改造面临的条件限制:机房面积、承重、施工难度和施工量等;
l 扩容改造的成本和周期;
l 扩容改造规划、工程设计和改造流程;
l 是改建还是新建,需要做全面的评估
2.3 设施风险评估方法和内容
如果你走入一家全球性的人寿保险公司,准备给自己买一份人寿保险,保险公司在提供准确的保费报价之前,一定要对你先做一个调查(风险评估),以此来计算出险的概率和成本。大致上,保险公司要做一个对于被保险者的体检和一个问卷类的调查。体检的目标是了解你现在的身体状况,包括外科类型的检查和基于血、尿检查的结果分析。问卷则主要关心两方面的问题:1〉是否有家族病史,2〉饮食、运动习惯、以及生活的环境。
从体检中,保险公司可以对你现在的身体总体状况做出判断,是看上去很健康,还是病病殃殃;血指标是一切正常,还是严重的三高……这个为保险公司判断基本的出险概率奠定了基础。
对于家族病史的了解,或者通过近几年开始逐步普及的基因测试分析,保险公司则可以推断出你是否有比较大的可能患某种遗传性疾病。比如高血压、糖尿病等。这个潜在风险不是正常的体检可以检出的,只能通过对家族病史的分析或者基因的测试得出结论。
最后,即使两个人身体条件一样好,也都没有家族病史。但是,一个生活在非洲战乱地区、每天吸两包烟、从不锻炼的人出险的概率会远大于生活在加拿大安详的小镇、从不抽烟喝酒、每周定时锻炼的人。
对于数据中心设施的评估也完全可以借用人寿保险的思路。这就是360度风险评估方法。
2.3.1 机房检测评估类型
根据机房建设的不同阶段,应该进行不同类型的评估
(1)规划方案设计评估:
l 明确数据中心规划等级及IT用户功能要求;
l 比对系统设计方案,考量系统方案规划是否欠缺;
l 核对关键设备,论证设备配置是否满足系统方案规划;
l 施工方案及图纸可行性验证。
(2)设备及子系统功能单体测试:
l 设备工厂认可测试;
l 现场设备安装工艺及质量验证;
l 单体设备功能及可靠性测试;
l 子系统现场认可测试。
(3)系统联调测试:
l 系统带载性能测试;
l 系统功能场景进行切换测试;
l 故障模拟冗余切换测试。
(4)机房验收评估
l 根据规划方案和设计图纸进行建设正确性检测评估;
l 根据设备及子系统功能单体测试记录和现场试运行情况做设备和子系统评估;
l 根据系统联调测试记录和现场试运行做系统评估;
l 系统带载测试评估;
l 工程建设质量评估;
l 设备安装质量评估。
(5)机房运行状态检测评估
l 根据系统运行情况做系统规划跟踪评估;
l 系统设备运行状态和存在的问题评估;
l 可能存在的故障隐患评估;
l 系统功能演练;
l 系统和设备可连续运行能力评估;
l 系统设备更新和扩容改造评估;
l 运维管理水平评估;
在不同的检测评估阶段,评估内容也有所侧重。
重点评估内容包括:
u 系统规划设计方案合理性及潜在问题;
u 设备运行状态;
u 设备参数设置合理性及运行参数的正确性;
u 系统可改造和可扩展能力;
u 系统可维护性和可快速修复性;
u 系统在各种极端情况下可连续运行的能力;
u 系统能效状态及改进措施;
u 运维管理制度建设和人员培训。
2.3.2 机房运行状态检测评估内容和流程
对已经正常运行的数据中心进行检测和评估的内容和流程如下:
(1) 基于规划设计资料和竣工图纸,对于数据中心拓扑架构的评估,找出由规划设计造成的固有问题和规划设计缺欠遗留下的隐患;
(2) 根据运行日志、故障和处理记录、设备维护和更新改造记录等,判断系统存在的问题和可能存在的故障隐患;
(3)通过专业人员携带专业仪表对于数据中心设施和设备的外观巡视、环境物理量测量、各种设备功能指标测量和检查,以及极端情况的演练,对于数据中心的运行状况做出判断,并查出或分析出可能存在的故障隐患;
(4)针对运维管理状况对运维团队建设、制度建立、运维人员运维水平和技术素质等,对于运维管理做出评估。
(5)检测评估报告
检测评估报告应包括以下内容:
l 所有检测数据和图表;
l 所有已发现和分析出的问题和故障隐患,并按照风险发生时对业务的影响分类,分为重大影响、一般影响和较小影响三类;
l 根据问题和故障隐患提出整改意见和实施方案;
l 应用户要求对扩容改造评估并提出扩容改造方案;
l 根据运维管理问题,提出运维团队建设和培训意见;
l 用户要求的其它工作。
tag标签:
必要性(5)检测评估(1)风险源(1)