邮箱:support@zcecs.com
地址:北京市西城区南滨河路27号贵都国际中心A座1111室
在智算中心内部,一排排高密度部署的AI服务器不间断地进行着计算,散发出远超过传统数据中心的热量。当冷板内的液体将芯片热量带出机柜后,这些载热液体汇聚到一组亮着指示灯的金属柜体——冷却液分配单元,它安静却至关重要地维系着整个液冷系统的有序运行。
一、CDU:连接服务器与基础设施的核心枢纽
CDU是Coolant Distribution Unit的缩写,中文译为冷却液分配单元。在智算中心的液冷系统中,它扮演着承上启下的“交通枢纽”和“管理中枢”角色。
从功能上看,CDU位于一次侧(机房级冷源)和二次侧(服务器内部冷却循环)的交界处。它的核心任务包括:
1. 流量与压力分配:将一次侧提供的冷却介质,按需分配至各个机柜或服务器集群,确保每个冷却支路获得稳定、均衡的流量和压力。
2. 系统隔离与保护:通常通过板式换热器,将一次侧回路与二次侧回路物理隔离开。这种设计允许两个回路使用不同的工质,例如一次侧使用价格低廉的软化水或乙二醇水溶液,而二次侧则使用绝缘性更好的去离子水或专用电介质液体,既保障了接触服务器部件的安全,也降低了运行成本。
3. 监控与调节:持续监测冷却液的温度、压力、流量和电导率等关键参数,并可通过调节泵频、阀门开度或与一次侧冷源通信,实现对冷却效果的动态控制。
可以这样理解:如果说服务器冷板是贴近热源的“毛细血管”,那么CDU就是控制整个肢体血液(冷却液)供回与健康的“心脏瓣膜与中书神经系统”。
二、系统架构:多模块协同的工程体
一台功能完备的CDU是一个高度集成的模块化系统,其内部架构通常包含以下几个关键部分:
动力模块(泵组):这是系统循环的“心脏”。通常采用变频冗余泵设计(如“一用一备”或“两用一备”),确保在任何单一泵故障时,系统仍能维持冷却液不间断地输送至服务器。变频控制则可根据实际热负荷调节流量,起到节能作用。
换热模块(板式换热器):这是实现冷量交换、隔离两侧回路的核心“器官”。一次侧冷源(来自冷水机组或自然冷却系统)的低温介质,与从服务器回来的二次侧高温介质在此进行GAO效换热,将热量带走。其换热效率直接影响整个系统的冷却能力和能耗。
过滤与补水模块:相当于系统的“肾脏与水平衡系统”。精细过滤器用于持续清除二次侧回路中因腐蚀、杂质等产生的颗粒物,保护服务器冷板内狭窄的微通道不被堵塞。自动补水单元则用于补充因微渗漏等损失的冷却液,维持系统压力稳定。
监测与控制模块:这是CDU的“大脑”。它集成了温度、压力、流量、液位、电导率等多种传感器,并通过可编程逻辑控制器或专用控制器,实现数据采集、逻辑判断与自动控制。所有信息通常上传至数据中心基础设施管理系统,实现集中监控。
管路与阀门模块:构成系统的“血管网络”。包括主管路、各支路分配管、手动/电动调节阀、关断阀、排气阀等,用于冷却液的输送、分配、流量调节及系统维护时的隔离。
三、主要类型:主动式与被动式的路径选择
根据CDU内部二次侧循环的动力来源和控制方式,可将其分为两大类型,其选择直接影响系统的架构和特性。
1. 主动式CDU
这是目前智算中心的主流选择。其蕞大特点是CDU内部集成有变频泵组,主动为二次侧冷却回路提供循环动力。
工作模式:CDU内的泵从二次侧回液管吸入被服务器加热的冷却液,加压后泵送至换热器降温,再将冷却后的液体输送至服务器冷板。
优点:控制能力强。可以准确控制二次侧的总供液压力、流量和温度,不受一次侧压力波动的影响。通过调节泵频,能很好地适应服务器负载变化,实现动态节能。易于扩展,可通过增加泵或CDU来应对未来机柜的增加。
考量点:系统相对复杂,初投资和泵本身的能耗是成本的一部分。对泵的可靠性要求高,需做好冗余设计。
2. 被动式CDU
也称为“泵驱式”或“一次侧泵驱”。在这种架构下,CDU内部不设二次侧循环泵,二次侧的循环动力完全依赖于一次侧循环泵提供的压力差。
工作模式:一次侧高压流体通过CDU内的换热器,将冷量传递给二次侧流体,并依靠此压力差推动二次侧流体流向服务器。CDU在此主要起分配和换热作用。
优点:系统结构简化,减少了CDU内的运动部件(泵),理论上潜在故障点减少,可靠性可能提升。同时,也避免了二次侧泵的能耗。
考量点:系统控制灵活性降低,二次侧流量和压力受一次侧系统影响较大。对一次侧泵的扬程和整个管网水力平衡设计提出更高要求。在应对局部负载剧烈变化或进行系统扩展时,调整可能不如主动式灵活。
四、选型与应用要点:匹配场景的系统性思考
为智算中心选择CDU,需要超越单一设备参数,进行系统性匹配分析。
与制冷架构和工质的匹配:这是首要前提。需要明确是一次侧采用水冷、冷冻水还是自然冷却方案,从而确定CDU换热侧的接口与参数。同时,须根据服务器冷却方式(冷板式/浸没式)及供应商要求,明确二次侧冷却工质的类型(去离子水、特种冷却液等),这决定了CDU内部材料兼容性及监测要点(如对水电导率的监控)。
容量与冗余配置:CDU的制冷容量(通常以kW计)和流量须覆盖其下联所有服务器在蕞坏情况下的总热负荷,并留有余量。其泵组、电源、控制器等关键部件须具备冗余能力,满足智算中心对高可用性的要求。常见的部署模式是“N+1”CDU集群,为整个液冷机柜区提供冗余。
控制逻辑与智能化水平:好的CDU应能实现与服务器负载的联动。例如,接收服务器入口水温信号或与数据中心基础设施管理系统协同,动态调节二次侧供液温度或流量,在保障散热安全的前提下,尽可能提高一次侧自然冷却的利用时间,优化整体能效。
可维护性与空间布局:智算中心业务连续性强,CDU需支持在线维护(如过滤器的更换、泵的切换)。其尺寸、接口位置、重量等物理特性,须与机房承重、通道、管道预留位置等现场条件相匹配。模块化设计的CDU在部署和后期扩容上通常更具优势。
全生命周期成本:选型时需综合评估初投资、安装成本、运行能耗、维护成本及可能的升级成本。一个能效更高、可靠性好、维护简便的CDU,虽然初期投入可能较高,但在长期的运营中可能更具价值。
随着智算中心朝着更高密度、更大规模的方向发展,CDU作为液冷系统的核心调度节点,其重要性愈发凸显。未来的CDU将向着更高集成度、更精细化的智能控制、更开放的标准化接口演进,并与AI能效管理平台结合,从“被动响应”走向“主动优化”,持续为澎湃的AI算力提供冷静、可靠的基础环境保障。