NVIDIA Rubin的液冷解决方案有哪些?

NVIDIA Rubin面临着高要求的工作负载,这导致了高功率密度和热量产生。Neptune和高温液冷等液冷解决方案可以帮助您应对这一挑战。日本服务器租用设施是这些冷却技术的早期采用者,为行业效率设定了标准。目前,冷板液冷约占市场70%,而浸没式冷却占29%。许多AI数据中心预计到2026年液冷采用率将达到40%,尤其是在全机架AI训练服务器中。Rubin受益于这些技术,提高了运营效率和稳定性。
主要要点
Neptune和高温系统等液冷解决方案可提升NVIDIA Rubin的效率,降低能耗和运营成本。
Neptune技术可将性能提升50%,实现更低的推理成本,训练所需GPU数量更少。
高温液冷简化了系统并通过消除传统冷却器来降低费用,非常适合高密度AI工作负载。
直接芯片和浸没式冷却方法各有优势,如更低的运营成本和高冷却能力,但需要仔细考虑成本和复杂性。
选择合适的冷却解决方案需要评估您的工作负载和基础设施兼容性,以确保最佳性能和可持续性。
NVIDIA Rubin液冷概述
在使用NVIDIA Rubin时,您需要先进的冷却系统来处理高功率和热量。您可以从几种主要的液冷解决方案中进行选择。这些包括Neptune液冷技术、高温液冷以及直接芯片和浸没式冷却。每种解决方案都为您的基础设施提供独特的优势,帮助您在苛刻环境中保持效率。
Neptune液冷技术
Neptune液冷技术为您提供了提高数据中心效率的有力方式。该系统使用直接到节点(DTN)温水冷却、后门热交换器和结合空气和液体冷却的混合解决方案。使用Neptune可以实现高达50%的效率提升。这意味着您的系统可以在使用更少能源的同时实现更高的性能水平。Neptune还可以帮助您降低能源足迹,这对于成本节约和可持续性都很重要。
当您将Neptune与NVIDIA Rubin硬件配合使用时,将看到明显的性能改进。下表显示了一些主要优势:
性能指标 | 改进描述 |
|---|---|
推理成本 | Rubin使每个令牌的推理成本比前代降低10倍。 |
GPU需求 | 训练某些模型(如专家混合)所需的GPU数量减少4倍。 |
冷却效率 | 可以使用温水冷却,无需冷却器,减少能源使用。 |
Neptune液冷技术通过减少复杂任务所需的硬件数量来支持您的AI数据中心。这带来了更低的公用事业成本和更好的计算成本效益。您可以用更少的设备完成更多的AI工作,使基础设施更加高效。
高温液冷系统
高温液冷系统让您可以在约45°C的水温下运行。这种方法为您的NVIDIA Rubin部署带来了几个优势。您可以降低机械复杂性并提高能源效率。这些系统还增强了可扩展性,这对高密度AI工作负载很重要。
下表突出显示了高温液冷对系统可靠性的影响:
温度范围 | 对系统可靠性的影响 |
|---|---|
45°C | 降低机械复杂性,提高能源效率,增强高密度AI基础设施的可扩展性 |
您还可以简化冷却回路并降低资本和运营支出。下表显示了更多详细信息:
温度范围 | 对系统可靠性的影响 |
|---|---|
45°C | 无需传统水冷却器即可运行,简化冷却回路拓扑并降低资本支出和运营支出 |
当您使用高温液冷时,您可以支持高密度AI工作负载并获得显著的热传递能力。下表总结了主要优势和挑战:
优势 | 挑战 |
|---|---|
无需传统冷却器即可运行 | 需要严格控制以避免冷凝 |
简化冷却系统 | 确保水质 |
降低资本和运营支出 | 需要能够处理更高温度的基础设施 |
支持高密度AI工作负载 | |
显著的热传递能力 |
您会注意到从主动制冷向被动散热的转变。这种改变优化了您的冷却流程并帮助您节省能源。下表概述了温水冷却对数据中心运营的影响:
优势 | 描述 |
|---|---|
资本效率 | 减少对大型冷冻水设备的需求,降低资本支出。 |
节能 | 显著减少压缩机运行时间和冷却器能源消耗。 |
运营转变 | 从主动制冷转向被动散热,优化冷却流程。 |
直接芯片和浸没式冷却
您还可以在NVIDIA Rubin基础设施中选择直接芯片和浸没式冷却方法。直接芯片冷却将液体直接输送到最热的组件,如GPU和CPU。这种方法为您提供更低的每千瓦运营成本和高效冷却。但是,您可能需要承担每个机架更高的前期成本。
浸没式冷却将整个服务器或机架浸入特殊的冷却液中。这种方法提供高冷却能力,通常每机架超过200千瓦。浸没式冷却非常适合特定用例和需要极端散热的环境。在选择这种方法之前,您应该考虑运营复杂性和冷却液成本。
下表比较了这两种冷却方法:
冷却方法 | 优势 | 挑战 |
|---|---|---|
直接芯片(D2C) | 每千瓦运营成本更低,冷却效率高 | 前期成本高(每机架8000-12000美元) |
浸没式冷却 | 高冷却能力(每机架>200千瓦) | 运营复杂性,昂贵的冷却液,应用场景有限 |
当您为Rubin选择液冷系统时,应该将冷却组件与您的具体需求相匹配。每种方法都支持不同的部署场景和基础设施要求。通过理解这些选项,您可以为NVIDIA Rubin工作负载构建更高效和可靠的环境。
解决方案细分
关键特性和技术
当您查看NVIDIA Rubin的液冷系统时,您会发现几个让它们与众不同的先进特性。这些系统在45°C下使用温水单相直接液冷。这种方法消除了对传统冷却器的需求,并支持机架级效率。Rubin平台可以在不增加气流的情况下管理多个GPU和CPU的热负载。您还可以受益于电源系统优化,它将冷却基础设施与高功率需求相匹配。模块化、无线缆的设计使组装和维护更容易。这些特性帮助您实现环境可持续性,并支持数据中心的热量再利用。
特性/技术 | 描述 |
|---|---|
温水单相直接液冷 | 使用45°C水,消除冷却器,支持机架级效率。 |
热负载管理 | 处理72个GPU和36个CPU的热负载,无需额外气流。 |
电源系统优化 | 提供高效供电,与冷却基础设施相匹配。 |
提升的供电效率 | Spectrum-X以太网光子交换系统提供比传统解决方案高5倍的效率。 |
模块化、无线缆设计 | 简化组装和维护。 |
环境可持续性 | 通过减少对冷却器的依赖,将全球数据中心用电量降低6%。 |
兼容性和安装
在为Rubin安装冷却组件时,您必须确保完全兼容。该平台需要完全转换为100%液冷,不保留任何空气冷却。系统中的每个GPU的热通量密度可达到超过1千瓦/平方厘米。这意味着您需要微通道冷板技术来实现高效的热交换。该系统支持使用45°C温水的高温液冷,这提高了能源效率。标准化的冷板设计和集成解决方案提高了您的基础设施的可靠性和性能。
提示:始终检查您的基础设施是否与微通道冷板兼容,并确保您的安装支持所需的流量。
性能和效率
NVIDIA Rubin的液冷解决方案在AI数据中心中带来显著的性能提升。这些系统可以管理更高的功率密度,并减少对冷却器等额外基础设施的需求。与空气冷却系统相比,您可以预期获得高达25倍的能源效率和300倍的用水效率。Rubin平台还提供40倍的收入潜力和30倍的更高吞吐量。通过使用高温液冷,您可以提高系统级效率并延长硬件寿命。增加的液体流量可以防止热节流,即使在极端工作负载下也是如此。您还可以获得热量再利用的能力,这支持可持续发展目标。
指标 | 传统空气冷却 | 液冷(GB200 NVL72) | 改进 |
|---|---|---|---|
能源效率 | 不适用 | 25倍 | 显著 |
用水效率 | 不适用 | 300倍 | 显著 |
收入潜力 | 不适用 | 40倍 | 显著 |
吞吐量 | 不适用 | 30倍 | 显著 |
成本节约 | 不适用 | 25倍 | 每年超过400万美元 |
NVIDIA Rubin的空气冷却与液冷对比
效率对比
当您比较NVIDIA Rubin的空气和液冷系统时,您会看到效率和性能的明显差异。空气冷却依赖风扇和气流,这在处理现代GPU的高功率密度时可能会遇到困难。液冷使用先进的冷却组件更有效地将热量从硬件转移走。这种方法即使在重负载下也能保持温度稳定。您可以在下表中看到主要差异:
特性 | 空气冷却 | 液冷 |
|---|---|---|
热传导效率 | 受对流热传导限制 | 优越的热传导系数 |
温度一致性 | 负载下波动 | 保持稳定温度 |
可扩展性 | 对GPU世代效果较差 | 适应现代GPU |
负载下性能 | 容易发生热节流 | 支持持续性能 |
适用于AI工作负载 | 不适合高密度设置 | 高性能AI的必需选择 |
液冷系统还通过允许更高的运行温度来支持系统级效率。这减少了对冷却器的需求,并让您可以将废热用于其他目的,如建筑供暖。在AI数据中心中,这种方法带来更好的能源使用和更可靠的基础设施。
从空气转向液冷可能会影响您的成本。您在冷却器上的支出可能会减少,但您需要投资泵、控制系统和冷却分配单元。液冷让您可以在更高温度下运行,这节省能源并允许将更多电力用于计算任务。总成本取决于您的冷却系统设计以及如何管理能源和水的使用。
向液冷过渡可能会降低初始冷却器成本,但会增加泵、CDU和控制系统等方面的支出。
液冷系统可以在更高温度下运行,这可能降低冷却能源消耗,允许更多能源用于计算任务。
总体成本影响取决于冷却系统的具体设计和运营因素,如能源效率和用水量。
使用案例和部署
您最常在AI工厂部署和高密度服务器环境中发现液冷。这些设置需要管理大型热负载并保持低能源使用。液冷比空气更有效地捕获热量,这使其非常适合高性能计算。在这些环境中,您可以重复使用热量并提高整体效率。Rubin硬件从这种方法中受益,特别是当您想要最大化性能并降低运营成本时。通过选择正确的冷却组件,您支持基础设施的长期可靠性并实现热量再利用以支持可持续运营。
选择正确的冷却解决方案
选择因素
当您为NVIDIA Rubin选择液冷解决方案时,您需要考虑您的工作负载、预算和部署场景。首先考虑您的机架级AI系统的功率密度。如果您运行下一代Rubin GPU,您将看到更高的热输出。您应该考虑高温液冷,因为它让您的AI数据中心能够在不依赖传统冷却器的情况下高效运行。这种冷却策略减少能源使用并支持热量再利用,这可以帮助您的基础设施变得更加可持续。
您还需要检查您的冷却基础设施是否能够处理高机架密度。寻找支持无冷却器回路和可靠冷却分配单元的冷却组件。注意水流管理和压力稳定性。长期的水质控制对于保持系统平稳运行很重要。通过关注这些因素,您可以将冷却解决方案与您的具体需求相匹配。
提示:始终检查您的基础设施是否与高温液冷兼容。这一步可以帮助您避免未来升级并保持系统效率。
实施指导
您可以遵循几个步骤来确保您的液冷解决方案与Rubin良好配合。首先,根据您的AI数据中心的规模和需要冷却的GPU数量来规划您的部署。选择适合您的机架级AI系统并支持高温液冷的冷却组件。这种方法允许您将热量重新用于其他目的,如建筑供暖。
接下来,与您的团队一起设置水流和压力控制。确保您的冷却基础设施有合适的传感器和监控工具。定期检查水质并根据需要调整系统。通过遵循这些步骤,您可以保持下一代Rubin GPU在峰值性能运行并延长基础设施的使用寿命。
步骤 | 行动项目 |
|---|---|
评估 | 审查工作负载和机架密度 |
规划 | 选择高温液冷 |
安装 | 设置冷却组件和传感器 |
监控 | 跟踪水流、压力和水质 |
优化 | 调整系统以获得最佳性能和重复使用 |
您有几种NVIDIA Rubin的液冷解决方案可选,包括Neptune、高温液冷和浸没式选项。高温液冷因其效率和支持密集部署的能力而脱颖而出。将您的冷却系统与运营需求和硬件相匹配可确保可靠的性能。在选择之前,使用下表审查您的数据中心环境:
特性 | 描述 |
|---|---|
冷却要求 | 45°C就绪冷却在许多气候条件下避免对冷却器的依赖。 |
可扩展性 | 支持每42U机架高达8,400台服务器的高密度基础设施。 |
热水冷却提高效率。
下一代服务器机架需要先进的冷却。
咨询解决方案提供商以获得最佳匹配。
常见问题
为什么液冷对NVIDIA Rubin至关重要?
您需要为NVIDIA Rubin配备液冷,因为它能处理高功率和热量。这项技术使您的硬件保持稳定和高效,特别是在高密度液冷AI数据中心中。
我是否可以升级现有基础设施以支持液冷?
您可以升级您的基础设施以支持液冷。检查您当前的设置是否与冷板和水流系统兼容。仔细规划以确保平稳过渡。
高温液冷如何使AI数据中心受益?
高温液冷让您的AI数据中心运行更加高效。通过使用温水而不是传统冷却器,您可以节省能源并降低成本。
浸没式冷却是否适合所有服务器环境?
浸没式冷却最适合专业环境。当您需要极端散热或有独特部署需求时,应该使用它。
液冷系统需要什么维护?
您需要监控水质、检查泄漏并保持传感器正常工作。定期维护有助于您的系统平稳运行并保护您的硬件。

