NVIDIA Rubin的液冷解決方案有哪些?

NVIDIA Rubin面臨著高要求的工作負載,這導致了高功率密度和熱量產生。Neptune和高溫液冷等液冷解決方案可以幫助您應對這一挑戰。日本伺服器租用設施是這些冷卻技術的早期採用者,為產業效率設定了標準。目前,冷板液冷約佔市場70%,而浸沒式冷卻佔29%。許多AI資料中心預計到2026年液冷採用率將達到40%,尤其是在全機架AI訓練伺服器中。Rubin受益於這些技術,提高了營運效率和穩定性。
主要要點
Neptune和高溫系統等液冷解決方案可提升NVIDIA Rubin的效率,降低能耗和營運成本。
Neptune技術可將效能提升50%,實現更低的推理成本,訓練所需GPU數量更少。
高溫液冷簡化了系統並透過消除傳統冷卻器來降低費用,非常適合高密度AI工作負載。
直接晶片和浸沒式冷卻方法各有優勢,如更低的營運成本和高冷卻能力,但需要仔細考慮成本和複雜性。
選擇合適的冷卻解決方案需要評估您的工作負載和基礎設施相容性,以確保最佳效能和可持續性。
NVIDIA Rubin液冷概述
在使用NVIDIA Rubin時,您需要先進的冷卻系統來處理高功率和熱量。您可以從幾種主要的液冷解決方案中進行選擇。這些包括Neptune液冷技術、高溫液冷以及直接晶片和浸沒式冷卻。每種解決方案都為您的基礎設施提供獨特的優勢,幫助您在嚴苛環境中保持效率。
Neptune液冷技術
Neptune液冷技術為您提供了提高資料中心效率的有力方式。該系統使用直接到節點(DTN)溫水冷卻、後門熱交換器和結合空氣和液體冷卻的混合解決方案。使用Neptune可以實現高達50%的效率提升。這意味著您的系統可以在使用更少能源的同時實現更高的效能水平。Neptune還可以幫助您降低能源足跡,這對於成本節約和可持續性都很重要。
當您將Neptune與NVIDIA Rubin硬體配合使用時,將看到明顯的效能改進。下表顯示了一些主要優勢:
效能指標 | 改進描述 |
|---|---|
推理成本 | Rubin使每個令牌的推理成本比前代降低10倍。 |
GPU需求 | 訓練某些模型(如專家混合)所需的GPU數量減少4倍。 |
冷卻效率 | 可以使用溫水冷卻,無需冷卻器,減少能源使用。 |
Neptune液冷技術透過減少複雜任務所需的硬體數量來支援您的AI資料中心。這帶來了更低的公用事業成本和更好的運算成本效益。您可以用更少的設備完成更多的AI工作,使基礎設施更加高效。
高溫液冷系統
高溫液冷系統讓您可以在約45°C的水溫下運行。這種方法為您的NVIDIA Rubin部署帶來了幾個優勢。您可以降低機械複雜性並提高能源效率。這些系統還增強了可擴展性,這對高密度AI工作負載很重要。
下表突顯顯示了高溫液冷對系統可靠性的影響:
溫度範圍 | 對系統可靠性的影響 |
|---|---|
45°C | 降低機械複雜性,提高能源效率,增強高密度AI基礎設施的可擴展性 |
您還可以簡化冷卻迴路並降低資本和營運支出。下表顯示了更多詳細資訊:
溫度範圍 | 對系統可靠性的影響 |
|---|---|
45°C | 無需傳統水冷卻器即可運行,簡化冷卻迴路拓撲並降低資本支出和營運支出 |
當您使用高溫液冷時,您可以支援高密度AI工作負載並獲得顯著的熱傳遞能力。下表總結了主要優勢和挑戰:
優勢 | 挑戰 |
|---|---|
無需傳統冷卻器即可運行 | 需要嚴格控制以避免冷凝 |
簡化冷卻系統 | 確保水質 |
降低資本和營運支出 | 需要能夠處理更高溫度的基礎設施 |
支援高密度AI工作負載 | |
顯著的熱傳遞能力 |
您會注意到從主動製冷向被動散熱的轉變。這種改變最佳化了您的冷卻流程並幫助您節省能源。下表概述了溫水冷卻對資料中心營運的影響:
優勢 | 描述 |
|---|---|
資本效率 | 減少對大型冷凍水設備的需求,降低資本支出。 |
節能 | 顯著減少壓縮機運行時間和冷卻器能源消耗。 |
營運轉變 | 從主動製冷轉向被動散熱,最佳化冷卻流程。 |
直接晶片和浸沒式冷卻
您還可以在NVIDIA Rubin基礎設施中選擇直接晶片和浸沒式冷卻方法。直接晶片冷卻將液體直接輸送到最熱的元件,如GPU和CPU。這種方法為您提供更低的每千瓦營運成本和高效冷卻。但是,您可能需要承擔每個機架更高的前期成本。
浸沒式冷卻將整個伺服器或機架浸入特殊的冷卻液中。這種方法提供高冷卻能力,通常每機架超過200千瓦。浸沒式冷卻非常適合特定使用案例和需要極端散熱的環境。在選擇這種方法之前,您應該考慮營運複雜性和冷卻液成本。
下表比較了這兩種冷卻方法:
冷卻方法 | 優勢 | 挑戰 |
|---|---|---|
直接晶片(D2C) | 每千瓦營運成本更低,冷卻效率高 | 前期成本高(每機架8000-12000美元) |
浸沒式冷卻 | 高冷卻能力(每機架>200千瓦) | 營運複雜性,昂貴的冷卻液,應用場景有限 |
當您為Rubin選擇液冷系統時,應該將冷卻元件與您的具體需求相匹配。每種方法都支援不同的部署場景和基礎設施要求。透過理解這些選項,您可以為NVIDIA Rubin工作負載構建更高效和可靠的環境。
解決方案細分
關鍵特性和技術
當您查看NVIDIA Rubin的液冷系統時,您會發現幾個讓它們與眾不同的先進特性。這些系統在45°C下使用溫水單相直接液冷。這種方法消除了對傳統冷卻器的需求,並支援機架級效率。Rubin平台可以在不增加氣流的情況下管理多個GPU和CPU的熱負載。您還可以受益於電源系統最佳化,它將冷卻基礎設施與高功率需求相匹配。模組化、無線纜的設計使組裝和維護更容易。這些特性幫助您實現環境可持續性,並支援資料中心的熱量再利用。
特性/技術 | 描述 |
|---|---|
溫水單相直接液冷 | 使用45°C水,消除冷卻器,支援機架級效率。 |
熱負載管理 | 處理72個GPU和36個CPU的熱負載,無需額外氣流。 |
電源系統最佳化 | 提供高效供電,與冷卻基礎設施相匹配。 |
提升的供電效率 | Spectrum-X乙太網路光子交換系統提供比傳統解決方案高5倍的效率。 |
模組化、無線纜設計 | 簡化組裝和維護。 |
環境可持續性 | 透過減少對冷卻器的依賴,將全球資料中心用電量降低6%。 |
相容性和安裝
在為Rubin安裝冷卻元件時,您必須確保完全相容。該平台需要完全轉換為100%液冷,不保留任何空氣冷卻。系統中的每個GPU的熱通量密度可達到超過1千瓦/平方公分。這意味著您需要微通道冷板技術來實現高效的熱交換。該系統支援使用45°C溫水的高溫液冷,這提高了能源效率。標準化的冷板設計和整合解決方案提高了您的基礎設施的可靠性和效能。
提示:始終檢查您的基礎設施是否與微通道冷板相容,並確保您的安裝支援所需的流量。
效能和效率
NVIDIA Rubin的液冷解決方案在AI資料中心中帶來顯著的效能提升。這些系統可以管理更高的功率密度,並減少對冷卻器等額外基礎設施的需求。與空氣冷卻系統相比,您可以預期獲得高達25倍的能源效率和300倍的用水效率。Rubin平台還提供40倍的營收潛力和30倍的更高吞吐量。透過使用高溫液冷,您可以提高系統級效率並延長硬體壽命。增加的液體流量可以防止熱節流,即使在極端工作負載下也是如此。您還可以獲得熱量再利用的能力,這支援可持續發展目標。
指標 | 傳統空氣冷卻 | 液冷(GB200 NVL72) | 改進 |
|---|---|---|---|
能源效率 | 不適用 | 25倍 | 顯著 |
用水效率 | 不適用 | 300倍 | 顯著 |
營收潛力 | 不適用 | 40倍 | 顯著 |
吞吐量 | 不適用 | 30倍 | 顯著 |
成本節約 | 不適用 | 25倍 | 每年超過400萬美元 |
NVIDIA Rubin的空氣冷卻與液冷對比
效率對比
當您比較NVIDIA Rubin的空氣和液冷系統時,您會看到效率和效能的明顯差異。空氣冷卻依賴風扇和氣流,這在處理現代GPU的高功率密度時可能會遇到困難。液冷使用先進的冷卻元件更有效地將熱量從硬體轉移走。這種方法即使在重負載下也能保持溫度穩定。您可以在下表中看到主要差異:
特性 | 空氣冷卻 | 液冷 |
|---|---|---|
熱傳導效率 | 受對流熱傳導限制 | 優越的熱傳導係數 |
溫度一致性 | 負載下波動 | 保持穩定溫度 |
可擴展性 | 對GPU世代效果較差 | 適應現代GPU |
負載下效能 | 容易發生熱節流 | 支援持續效能 |
適用於AI工作負載 | 不適合高密度設置 | 高效能AI的必需選擇 |
液冷系統還透過允許更高的運行溫度來支援系統級效率。這減少了對冷卻器的需求,並讓您可以將廢熱用於其他目的,如建築供暖。在AI資料中心中,這種方法帶來更好的能源使用和更可靠的基礎設施。
從空氣轉向液冷可能會影響您的成本。您在冷卻器上的支出可能會減少,但您需要投資泵、控制系統和冷卻分配單元。液冷讓您可以在更高溫度下運行,這節省能源並允許將更多電力用於運算任務。總成本取決於您的冷卻系統設計以及如何管理能源和水的使用。
向液冷過渡可能會降低初始冷卻器成本,但會增加泵、CDU和控制系統等方面的支出。
液冷系統可以在更高溫度下運行,這可能降低冷卻能源消耗,允許更多能源用於運算任務。
總體成本影響取決於冷卻系統的具體設計和營運因素,如能源效率和用水量。
使用案例和部署
您最常在AI工廠部署和高密度伺服器環境中發現液冷。這些設置需要管理大型熱負載並保持低能源使用。液冷比空氣更有效地捕獲熱量,這使其非常適合高效能運算。在這些環境中,您可以重複使用熱量並提高整體效率。Rubin硬體從這種方法中受益,特別是當您想要最大化效能並降低營運成本時。透過選擇正確的冷卻元件,您支援基礎設施的長期可靠性並實現熱量再利用以支援可持續營運。
選擇正確的冷卻解決方案
選擇因素
當您為NVIDIA Rubin選擇液冷解決方案時,您需要考慮您的工作負載、預算和部署場景。首先考慮您的機架級AI系統的功率密度。如果您運行下一代Rubin GPU,您將看到更高的熱輸出。您應該考慮高溫液冷,因為它讓您的AI資料中心能夠在不依賴傳統冷卻器的情況下高效運行。這種冷卻策略減少能源使用並支援熱量再利用,這可以幫助您的基礎設施變得更加可持續。
您還需要檢查您的冷卻基礎設施是否能夠處理高機架密度。尋找支援無冷卻器迴路和可靠冷卻分配單元的冷卻元件。注意水流管理和壓力穩定性。長期的水質控制對於保持系統平穩運行很重要。透過關注這些因素,您可以將冷卻解決方案與您的具體需求相匹配。
提示:始終檢查您的基礎設施是否與高溫液冷相容。這一步可以幫助您避免未來升級並保持系統效率。
實施指導
您可以遵循幾個步驟來確保您的液冷解決方案與Rubin良好配合。首先,根據您的AI資料中心的規模和需要冷卻的GPU數量來規劃您的部署。選擇適合您的機架級AI系統並支援高溫液冷的冷卻元件。這種方法允許您將熱量重新用於其他目的,如建築供暖。
接下來,與您的團隊一起設置水流和壓力控制。確保您的冷卻基礎設施有合適的感應器和監控工具。定期檢查水質並根據需要調整系統。透過遵循這些步驟,您可以保持下一代Rubin GPU在峰值效能運行並延長基礎設施的使用壽命。
步驟 | 行動項目 |
|---|---|
評估 | 審查工作負載和機架密度 |
規劃 | 選擇高溫液冷 |
安裝 | 設置冷卻元件和感應器 |
監控 | 追蹤水流、壓力和水質 |
最佳化 | 調整系統以獲得最佳效能和重複使用 |
您有幾種NVIDIA Rubin的液冷解決方案可選,包括Neptune、高溫液冷和浸沒式選項。高溫液冷因其效率和支援密集部署的能力而脫穎而出。將您的冷卻系統與營運需求和硬體相匹配可確保可靠的效能。在選擇之前,使用下表審查您的資料中心環境:
特性 | 描述 |
|---|---|
冷卻要求 | 45°C就緒冷卻在許多氣候條件下避免對冷卻器的依賴。 |
可擴展性 | 支援每42U機架高達8,400台伺服器的高密度基礎設施。 |
熱水冷卻提高效率。
下一代伺服器機架需要先進的冷卻。
諮詢解決方案提供商以獲得最佳匹配。
常見問題
為什麼液冷對NVIDIA Rubin至關重要?
您需要為NVIDIA Rubin配備液冷,因為它能處理高功率和熱量。這項技術使您的硬體保持穩定和高效,特別是在高密度液冷AI資料中心中。
我是否可以升級現有基礎設施以支援液冷?
您可以升級您的基礎設施以支援液冷。檢查您當前的設置是否與冷板和水流系統相容。仔細規劃以確保平穩過渡。
高溫液冷如何使AI資料中心受益?
高溫液冷讓您的AI資料中心運行更加高效。透過使用溫水而不是傳統冷卻器,您可以節省能源並降低成本。
浸沒式冷卻是否適合所有伺服器環境?
浸沒式冷卻最適合專業環境。當您需要極端散熱或有獨特部署需求時,應該使用它。
液冷系統需要什麼維護?
您需要監控水質、檢查洩漏並保持感應器正常工作。定期維護有助於您的系統平穩運行並保護您的硬體。

