技术@液冷如何给“火热”的数据中心降温?( 二 )


1. 间接液冷——冷板式
冷板式液冷对发热器件的改造和适配要求较低 , 技术成熟度较高 , 应用进展最快 。 冷板式液冷系统由换热冷板、分液单元、热交换单元、循环管路和冷却液组成 , 它是通过换热冷板(通常是铜、铝等高导热金属构成的封闭腔体)将发热器件的热量传递给封闭在循环管路中的冷却液体进行换热的方式 , 按照管路的连接方式不同可分为串联式和并联式 。 串联方式中 , 冷却液体先进入一个冷板腔体散热后再继续流入下一个冷板腔体 , 管路连接简单但不同部分的CPU会存在温差;并联式方式中 , 冷却液在进入不同腔体前会先进行分流 , 然后再分别进入腔体内 , 散热更高效但管路系统更复杂 。 由于冷板式液冷中发热器件无需直接与液体接触 , 所以对发热器件本身的改造和适配要求较小 , 因此 , 冷板式液冷的成熟度相对较高 。 目前 , 百度、腾讯、美团等互联网企业均开始对冷板式液冷进行技术研究和试验验证 , 在冷板式液冷产业内形成了强劲的带动作用 。
2. 直接液冷——浸没式
浸没式散热优势最明显 , 能极大提升能源使用效率 , 较适合新建数据中心 。 浸没式液冷是一种以液体作为传热介质 , 将发热器件完全浸没在液体中 , 发热器件与液体直接接触并进行热交换的冷却技术 。 按照热交换过程中冷却液是否存在相态变化 , 可分为单相液冷和相变液冷两类 。 区别在于作为传热介质的液体在热量传递过程中是只发生温度变化 , 还是存在相态转变 。 浸没式液冷系统一般分为浸没腔体子系统、冷却子系统、室外冷源系统、监控系统四部分 。 由于系统架构特殊 , 冷却液可以与发热器件直接接触 , 所以浸没式的散热效率较高 , 可支持更高功率密度的IT部署 , 能极大提升能源使用效率(PUE) 。 虽然制冷效果较好 , 但由于需要直接将冷却液和发热器件接触 , 数据中心设备改造的动作更大 , 因此浸没式更适合新建数据中心 。 目前 , 阿里巴巴已经在其北京冬奥云数据中心进行浸没式液冷的规模化部署 , 开启了浸没式液冷的正式商用 。
四、变化与影响
革新数据中心的整体架构 。 从避免液体接触机房设备到主动引入液体和使用液体 , 液冷技术的使用让数据中心的基础架构发生了变化 。 从地板到天花板 , 从线路到管路 , 从机柜外部结构到内部部署 , 液冷将会带来完全不一样架构的数据中心 。
革命性地改变数据中心散热方式 。 以往数据中心散热以风冷为主 , 散热消耗要占据大部分的能源消耗 。 液冷逐渐替代了风冷散热后 , 散热效率显著提升 。 应用证明 , 大多数地区使用液冷技术后可获得机房PUE<1.1的效果 。
重构IT设备及关键部件的设计和部署 。 以服务器为主的IT设备 , 包括CPU、GPU、存储、网卡等关键部件 , 都会为了更好地散热(例如 , 与风冷相比部分CPU满载工作时的核温可降低20℃)开始直接或间接接触液体 , 为了与液冷系统兼容 , 它们的设计和部署势必会做出改变 。
颠覆数据中心的监控和运维模式 。 液冷技术进入机房后 , 数据中心的监测和控制系统会重点围绕它进行 , 如部署漏液监测、温度监测、压力监测等 。 除此之外 , 数据中心的运营和维护思路也会改变 , 液体、管路、接口等液冷配套设施均会给运维带来新要求 。
完善能效评价指标和方法 。 目前评价数据中心能源效率的主要指标是PUE , 它是数据中心总能耗与IT设备能耗的比值 。 现阶段数据中心液冷部署还处于过渡阶段 , 即同一数据中心可能同时使用风冷和液冷系统 , 为了充分了解两部分系统的性能 , 需要分开度量能源效率 , 因此 , PUE的度量指标可以进一步完善 。
五、展望
在数据中心中 , 受限于机房设计和配套设施 , 当单机架功率密度接近20kW时 , 风冷系统就已达到其经济有效的制冷极限 。 液体冷却技术是一个开放、灵活的制冷解决方案 , 它支持技术计算、网格部署和数据分析等工作负载 , 可以有效应对高性能计算(HPC)、大规模云数据中心、边缘计算、人工智能等高功率密度场景 , 对于减少数据中心能源消耗、降低TCO有非常明显的优势 , 具有广阔的市场前景 。


推荐阅读