Blog sur la gestion thermique

Dans le domaine des technologies de dissipation thermique, la gestion thermique est cruciale. Le blog thermique Walmate sert de plateforme. Nous y partageons des solutions avancées de gestion thermique, des dissipateurs thermiques innovants aux systèmes de refroidissement intelligents, pour vous permettre de garder une longueur d'avance.

Solution de refroidissement par huile d'immersion pour serveur GPU NVIDIA H200

Solution de refroidissement par huile d'immersion pour serveur GPU NVIDIA H200

La carte graphique NVIDIA H200 est un concentré de puissance de calcul, moteur de la révolution de l'IA grâce à une bande passante mémoire et une vitesse de traitement inégalées. Cependant, ces performances ont un coût thermique élevé, avec un TDP (Thermal Design Power) dépassant [valeur manquante]. 700 W par GPU et les densités de puissance des racks dépassant 50 kWLe refroidissement par air traditionnel n'est plus seulement inefficace ; il constitue un goulot d'étranglement majeur en termes de performances. Pour exploiter pleinement le potentiel de ces clusters haute densité, les centres de données doivent adopter un modèle de gestion thermique plus performant.

Refroidissement par huile d'immersion Cette méthode consiste à immerger l'ensemble de l'infrastructure serveur H200 dans un fluide diélectrique thermoconducteur. Elle élimine la résistance thermique de l'air, permettant ainsi d'atteindre des indices d'efficacité énergétique (PUE) aussi bas que 1.03, en augmentant la densité des racks par jusqu'à% 100et en garantissant des fréquences d'horloge maximales constantes sans risque de limitation thermique.

Ce guide propose une analyse technique complète du déploiement du refroidissement par immersion pour les clusters HGX H200. Nous examinerons la thermodynamique de l'huile monophasique, sélectionnerons les fluides diélectriques optimaux, définirons l'architecture système nécessaire et résoudrons les problèmes de compatibilité des matériaux afin de construire un centre de données IA haute densité et pérenne.

Pourquoi le refroidissement par air est-il obsolète pour les clusters NVIDIA H200 ?

Le passage au NVIDIA H200 marque la fin définitive de l'ère du refroidissement par air pour le calcul haute performance. La limite thermique du refroidissement par air forcé traditionnel est généralement considérée comme étant d'environ 30-40 kW par rackCependant, les agrégats H200 à haute densité peuvent facilement dépasser ce seuil. 100 kW par rackCela crée une charge thermique que l'air est physiquement incapable d'évacuer sans engendrer un bruit excessif, des vibrations et une consommation d'énergie insoutenable. Toute tentative de refroidissement par air de ces systèmes entraîne une limitation thermique immédiate et une réduction drastique de l'efficacité de calcul.

La thermodynamique de la défaillance : spécifications H200

Pour comprendre pourquoi le refroidissement par air est défaillant, il faut analyser les données thermiques brutes du matériel. La carte NVIDIA H200 n'est pas qu'une simple puce ; c'est un véritable défi thermique qui repousse les limites de la physique.

  • TDP extrême : Un seul GPU H200 (SXM5) possède une enveloppe thermique (TDP) de 700W, avec des pics de charge transitoire dépassant souvent cette valeur. Une carte mère HGX à 8 GPU génère à elle seule 5.6kW de chaleur dans un châssis 4U ou 6U.
  • Températures de jonction élevées : Pour maintenir les fréquences d'horloge boost maximales, la température de jonction du GPU (Tj) doit être maintenue bien en dessous de sa limite maximale (généralement ~90°C à 95°CLe refroidissement par air peine à maintenir ce delta T à des flux de chaleur aussi élevés.
  • Explosion de la densité des racks : Une baie standard équipée de serveurs H200 peut atteindre des densités de puissance de 50kW à 100kW. L'air nécessite un débit volumique massif (CFM) pour refroidir cela, ce qui conduit à des exigences de vitesse impossibles.

Les conséquences de s'accrocher à l'air

Le maintien du refroidissement par air pour les déploiements H200 entraîne de graves conséquences opérationnelles :

  • Perte de puissance parasite : Pour refroidir un rack de 100 kW par air, les ventilateurs du serveur doivent tourner à leur vitesse maximale (plus de 10 000 tr/min). Cette consommation parasite peut entraîner une surconsommation d'énergie. 15% à 25% de la puissance totale du centre de données, augmentant significativement le PUE (Power Usage Effectiveness).
  • Vibrations acoustiques : Les ventilateurs à grande vitesse génèrent des niveaux sonores dépassant 100 dBACette énergie acoustique provoque des micro-vibrations qui peuvent dégrader les performances du disque dur (HDD) et desserrer les connecteurs au fil du temps.
  • Limitation thermique : L'air crée des « points chauds » en raison d'une répartition inégale du flux. Lorsqu'un GPU atteint sa limite thermique, sa fréquence diminue automatiquement, ce qui signifie que vous payez pour les performances d'une carte H200 mais que vous obtenez les vitesses d'une H100 (ou inférieure).
Spécifications Configuration requise pour la carte graphique NVIDIA H200 (SXM5) Limite de refroidissement par air Résultat
TDP par GPU 700 Watts ~350-400 Watts (efficacement) Limitation thermique
Densité de puissance du rack > 50 kW – 100 kW ~30 kW – 40 kW Nécessite un déploiement à faible densité (espace gaspillé)
Delta T (Puce à liquide de refroidissement) Nécessite une faible résistance thermique Haute résistance (l'air est un isolant) Températures de jonction élevées
Consommation électrique du ventilateur N/A (sans ventilateur, à huile) 20 % de la charge informatique PUE élevé (>1.5)

Qu’est-ce que le refroidissement par immersion ? Monophasé vs. Biphasé

Le refroidissement par immersion se divise en deux technologies distinctes : Monophasé et Deux phases. En Immersion monophaséeLes serveurs sont immergés dans un fluide diélectrique (généralement une huile hydrocarbonée) qui reste à l'état liquide, évacuant la chaleur par convection active pompée. Immersion biphasiqueUn fluide technique spécialisé bout directement à la surface du composant, utilisant la chaleur latente de vaporisation pour évacuer la chaleur avant de se condenser à nouveau à l'état liquide. Bien que le fluide diphasique offre des taux de transfert thermique théoriques plus élevés, le fluide monophasique est largement considéré comme le meilleur choix pour une stabilité opérationnelle à long terme et un coût total de possession (CTP) réduit.

Refroidissement par immersion monophasé (La norme industrielle)

Les systèmes monophasés utilisent un fluide diélectrique à point d'ébullition élevé (généralement > 150 ° C) afin qu'il ne change jamais d'état pendant son fonctionnement. Le fluide absorbe la chaleur des GPU H200 et est mis en circulation par une pompe vers une unité de distribution de liquide de refroidissement (CDU) pour l'évacuation de la chaleur.

  • Mécanisme: Repose sur Convection forcéeLes pompes font circuler l'huile à travers le réservoir et le châssis du serveur.
  • Efficacité du transfert de chaleur : Le coefficient de transfert thermique typique (h) varie de 1 200 à 1 500 W/m²KBien qu'inférieure à la température d'ébullition, cette température est suffisante pour refroidir le GPU H200 de 700 W avec un débit modeste.
  • Coût des fluides : Utilise des fluides à base d'hydrocarbures (huiles minérales ou PAO synthétiques), qui sont rentables (environ. 5 $ à 15 $ le litre).
  • Entretien: La conception à bain ouvert facilite l'accès. Le liquide ne s'évapore pas rapidement, ce qui simplifie les opérations de maintenance comme le remplacement d'une barrette de mémoire ou d'une carte graphique (« trempage et essuyage »).

Refroidissement par immersion diphasique (Le créneau haute performance)

Les systèmes biphasiques utilisent des fluides à base de fluorocarbone conçus pour bouillir à basse température (par exemple, 50 ° CLe processus d'ébullition crée des bulles de vapeur à la surface de la puce, qui remontent jusqu'à un serpentin de condensation situé en haut du réservoir scellé.

  • Mécanisme: Repose sur ébullition nucléée et changement de phase (chaleur latente de vaporisation).
  • Efficacité du transfert de chaleur : Extrêmement élevé, avec des coefficients dépassant 10,000 W/m²KCela permet d'obtenir les températures de jonction les plus basses possibles.
  • Coût des fluides : Fluides techniques extrêmement coûteux (par exemple, Novec), coûtant souvent 150 $ à plus de 300 $ le litre.
  • Risques environnementaux : De nombreux fluides diphasiques sont classés comme PFAS (« produits chimiques éternels »), confrontés à des interdictions réglementaires imminentes dans l'UE et aux États-Unis.
  • Risque opérationnel: Le réservoir doit être hermétiquement scellé. Même une microfuite entraîne une perte rapide de plusieurs milliers de dollars de liquide, sous forme de vapeur.

Perspectives d'ingénierie : Pour la plupart des déploiements hyperscale, Walmate Thermal recommande Huile monophaséeBien que les systèmes biphasés offrent des performances thermiques légèrement supérieures, le coût exorbitant du fluide, la complexité élevée de la maintenance (étanchéité hermétique) et l'incertitude réglementaire concernant les PFAS en font un investissement risqué pour un cycle de vie de centre de données de 10 ans. Les systèmes monophasés sont robustes, durables et offrent une capacité de refroidissement largement suffisante (jusqu'à…). 200 kW+ par réservoir) pour les clusters H200 actuels et futurs.

Caractéristique Monophasé (huile) Biphasique (fluide technique)
Coefficient de transfert de chaleur ~1 200 – 1 500 W/m²K > 10 000 W/m²K
Coût des fluides (approximatif) Faible (5 $ – 15 $ / L) Très élevé (150 $ – 300 $+ / L)
Complexité de la maintenance Faible (Accès libre) Élevé (Nécessite un récipient étanche)
Risque de perte de fluides Négligeable (non volatil) Élevée (Évaporation rapide en cas de rupture du joint)
Potentiel PUE 1.03 – 1.05 1.02 – 1.03
Statut réglementaire Options sûres et biodégradables Risque d'interdiction des PFAS

Choisir le bon fluide diélectrique (l’« huile »)

Le fluide diélectrique est essentiel au fonctionnement d'un système d'immersion. Il sert à la fois de fluide de refroidissement et d'isolant électrique. Pour les grappes H2O0 haute densité, le fluide doit répondre à des exigences strictes : rigidité diélectrique supérieure à 40 kV Pour éviter les courts-circuits, une conductivité thermique élevée est nécessaire pour dissiper la chaleur de 700 W par GPU, et des tests rigoureux sont effectués. compatibilité des matériauxBien que les huiles minérales raffinées soient courantes, les centres de données modernes s'orientent vers d'autres solutions. huiles synthétiques PAO (polyalphaoléfine) pour leur stabilité supérieure à l'oxydation et leur viscosité constante sur une période donnée 10 + année durée de vie.

Propriétés clés : La physique du fluide

Le choix d'un fluide ne se résume pas au prix ; il s'agit aussi de dynamique des fluides et de spécifications de sécurité :

  • Viscosité (cSt) : Cela détermine l'effort que doit fournir la pompe. Une valeur plus faible est préférable pour le transfert de chaleur. Les fluides idéaux ont une viscosité cinématique de < 10 cSt à 40 °CLes fluides à haute viscosité créent des couches limites stagnantes sur la puce GPU, augmentant ainsi les températures de jonction.
  • Point d'éclair et sécurité incendie : Le fluide ne doit pas être inflammable dans des conditions normales d'utilisation. Point d'éclair > 150 ° C il s'agit de la marge de sécurité standard, bien supérieure à la température de fonctionnement du serveur, qui est d'environ 50 à 60 °C.
  • Point d'écoulement : Essentiel pour les démarrages à froid. Le fluide doit rester liquide à basse température, idéalement <-40 ° C, afin de garantir que les pompes puissent faire circuler le fluide immédiatement après une panne de courant dans l'installation en hiver.

Le risque caché : la compatibilité des matériaux

Le mode de défaillance le plus fréquent lors des premiers déploiements en immersion n'était pas thermique, mais chimique. Les huiles hydrocarbonées peuvent agir comme solvants.

  • Durcissement des câbles : Les huiles peuvent extraire les plastifiants de l'isolation des câbles en PVC standard, les rendant cassants et sujets aux fissures. L'utilisation de câbles résistants à l'immersion (par exemple, en téflon/PTFE) est donc indispensable.
  • Lavage TIM : Les pâtes thermiques standard peuvent se dissoudre ou migrer dans l'huile, contaminant ainsi le fluide et entraînant un mauvais contact thermique avec la puce graphique. L'utilisation d'une feuille d'indium ou de pâtes thermiques d'immersion spécifiques est nécessaire.
Propriétés PAO synthétique Huile minérale raffinée Huile standard pour transformateurs Cible idéale pour H200
Résistance diélectrique > 50kV > 40kV > 30kV > 45kV
Viscosité à 40 ° C 6 à 8 cSt 10 à 15 cSt > 20 cSt (Trop épais) < 10 cSt
Point de rupture > 160 ° C > 140 ° C ~ 135 ° C > 150 ° C
Coût relatif $$ $ $ Équilibre performance/coût

Architecture du système : réservoirs, unités de distillation atmosphérique et collecteurs

Le déploiement d'un système de refroidissement par immersion ne se résume pas à remplir une cuve d'huile. Il requiert une architecture hydraulique sophistiquée en circuit fermé, conçue pour déplacer avec précision d'importantes quantités d'énergie thermique. Un écosystème d'immersion complet pour les clusters NVIDIA H200 se compose de trois sous-systèmes critiques : Réservoir d'immersion (le vaisseau principal), le Unité de distribution de liquide de refroidissement (CDU) (le moteur de gestion thermique), et le Système de rejet de chaleur (refroidisseurs secs). Chaque composant doit être conçu pour répondre aux exigences spécifiques de dynamique des fluides et de compatibilité des matériaux des fluides diélectriques.

Un système de refroidissement par immersion complet pour les clusters NVIDIA H200 repose sur trois sous-systèmes intégrés fonctionnant en harmonie. Premièrement, le Réservoir d'immersion Il abrite le matériel serveur et sert de principal dispositif de récupération de chaleur. Deuxièmement, le Unité de distribution de liquide de refroidissement (CDU) Il constitue le cœur du système, gérant le flux de fluides, la filtration et la régulation de la température via un échangeur de chaleur liquide-liquide. Enfin, un dispositif externe refroidisseur sec ou refroidisseur Elle rejette la chaleur capturée dans l'atmosphère, bouclant ainsi la boucle thermique.

Le réservoir d'immersion : bien plus qu'un simple récipient

Le réservoir assure l'interface entre le matériel informatique et le fluide. Pour les baies H200 haute densité, la conception du réservoir doit relever plusieurs défis mécaniques :

  • Construction matérielle : Les réservoirs sont généralement fabriqués à partir de Acier inoxydable (304 ou 316) afin de garantir une interaction nulle avec le fluide diélectrique et d'assurer la rigidité structurelle nécessaire pour supporter la charge importante du fluide (souvent > 1,000 kg (de pétrole par réservoir).
  • Gestion et évacuation des câbles : L'huile peut remonter dans les câbles par capillarité. Les réservoirs doivent être équipés de chemins de câbles et de joints d'étanchéité spécifiques afin d'empêcher l'huile de couler sur le sol ou d'atteindre les zones non immergées.
  • Alimentation électrique par barres omnibus : Delivering 100kW L'alimentation électrique d'un réservoir nécessite des barres omnibus rigides plutôt que des câbles standard. Ces barres omnibus doivent être compatibles avec le fluide diélectrique et conçues pour minimiser la chute de tension.

L'unité centrale de données (CDU) : le cœur du système

L'unité de distribution de fluide frigorigène (UDF) crée le circuit secondaire, isolant le fluide diélectrique coûteux contenu dans le réservoir du circuit d'eau de l'installation. Elle assure la régulation du débit, la filtration et la stabilité de la température.

  • Échangeurs de chaleur: Il s'agit du composant principal. Haute efficacité Échangeurs de chaleur à plaques brasées (BPHE) Ces composants servent à transférer la chaleur de l'huile à l'eau de l'installation. Walmate Thermal est spécialisée dans la fabrication de ces éléments essentiels et optimise la géométrie des plaques pour supporter la viscosité plus élevée de l'huile par rapport à l'eau.
  • Stratégie de redondance : La fiabilité est non négociable. Les CDU pour clusters H200 utilisent généralement un Configuration de pompe N+1Si une pompe tombe en panne, la pompe de secours prend immédiatement le relais pour éviter l'emballement thermique, qui peut se produire dans <30 secondes à ces densités de puissance.
  • Filtration: L'unité de filtration de l'huile (CDU) doit filtrer l'huile en continu pour éliminer les particules (débris, flux de soudure) susceptibles de créer des ponts de contact. Un seuil de filtration de < 10 microns est une norme visant à protéger les composants sensibles du GPU.

Collecteurs et distribution des flux

Le simple fait de pomper de l'huile dans le réservoir ne suffit pas. Le flux doit être dirigé avec précision vers les composants chauds. Ceci est réalisé grâce à des collecteurs conçus sur mesure.

  • Exigences en matière de vitesse d'écoulement : Pour refroidir efficacement un GPU de 700 W avec de l'huile monophasée, un débit localisé d'environ 10-15 litres par minute (L/min) une valeur par nœud est souvent nécessaire.
  • Uniformité: La conception du collecteur doit garantir une chute de pression égale pour tous les emplacements serveur. Une conception inadéquate du collecteur entraîne une alimentation insuffisante des serveurs situés à l'extrémité du réservoir, provoquant leur surchauffe tandis que les autres restent froids.
  • L'expertise de Walmate : Nous concevons et fabriquons des collecteurs de distribution de fluides sur mesure en acier inoxydable. Simulation CFD afin de garantir des profils de vitesse uniformes dans tout le volume du réservoir.
Composant Fonction clef Spécifications critiques (Données)
Réservoir d'immersion Contient des équipements informatiques et des fluides Capacité de charge : 42U – 52U; Pouvoir: 100 kW+
CDU (échangeur de chaleur) Transfère la chaleur à l'eau de l'installation Température d'approche : 3 ° C - 5 ° C; Taper: Plaque brasée
Pompes de circulation Déplace le fluide diélectrique Débit: > 300 LPM (par réservoir de 100 kW) ; Redondance : N + 1
Système de filtration Élimine les particules Évaluation: 5 à 10 XNUMX microns; Remplaçable en cours de fonctionnement
Refroidisseur à sec Rejette la chaleur dans l'atmosphère Température de l'eau de retour : 35 ° C - 45 ° C (Permet un refroidissement gratuit)

Le retour sur investissement de l'immersion : PUE, densité et coût total de possession

Le passage au refroidissement par immersion nécessite un investissement initial plus important pour les réservoirs et le fluide, mais le retour sur investissement est rapide et substantiel. La rentabilité du refroidissement par immersion repose sur trois piliers : une réduction drastique de la consommation d’énergie (dépenses d’exploitation), une augmentation considérable de la densité de calcul (gain d’espace) et une durée de vie prolongée du matériel. Pour un cluster NVIDIA H200 haute densité, le refroidissement par immersion est souvent la seule solution pour atteindre un coût total de possession (CTP) durable.

Le refroidissement par immersion réduit considérablement les coûts d'exploitation en s'attaquant aux causes profondes de l'inefficacité des centres de données. En éliminant les ventilateurs de serveurs et les unités CRAC énergivores, il diminue la consommation énergétique totale de 30 to 50 %, permettant des indices d'efficacité énergétique (PUE) aussi bas que 1.03 par rapport aux 1.5+ valeurs typiques des installations refroidies par air. De plus, cela permet d'augmenter la densité du matériel de 2-3<br>fois plus rapides, ce qui permet d'économiser de l'espace au sol coûteux et des coûts de construction.

Répartition des économies d'énergie

Les économies d'énergie proviennent de la suppression de deux charges parasites importantes :

  • Élimination des fans du serveur : Dans un serveur H200 refroidi par air, les ventilateurs peuvent consommer 15 to 20 % Une partie de la puissance informatique totale est utilisée pour faire circuler l'air à travers des dissipateurs thermiques denses. En immersion, les ventilateurs sont entièrement supprimés. Cela réduit instantanément la charge informatique jusqu'à 20 % pour une même puissance de calcul.
  • Refroidissement sans compresseur : Le refroidissement par air nécessite des refroidisseurs pour produire de l'air froid (souvent entre 15 et 20 °C). L'huile d'immersion fonctionne à des températures plus élevées (entre 40 et 50 °C), ce qui permet… refroidissement gratuit L'utilisation exclusive de refroidisseurs secs extérieurs dans presque tous les climats élimine le besoin de réfrigération mécanique énergivore (compresseurs).

Durée de vie et fiabilité du matériel

L'immersion ne se contente pas de refroidir le matériel ; elle le protège. Cela prolonge le temps moyen entre les pannes (MTBF).

  • Stabilité thermique: La masse thermique élevée de l'huile élimine les pics de température rapides (cycles thermiques) qui provoquent la fatigue des joints de soudure.
  • Protection contre les contaminants : Les composants immergés sont insensibles à la poussière, à l'humidité, au soufre et à l'oxydation, qui sont des ennemis courants des appareils électroniques refroidis par air.
  • Élimination des vibrations : L'absence de ventilateurs à grande vitesse élimine les vibrations acoustiques, protégeant ainsi les baies de disques durs et leurs connecteurs.
Métrique Refroidissement par air Legacy Refroidissement par immersion dans l'huile Économies/Gains
PUE (efficacité énergétique) 1.4 – 1.6 1.03 – 1.05 Puissance totale réduite d'environ 30 %
Densité de puissance du rack (kW) 15 – 30 kW 100 kW – 200 kW+ Densité 3x – 6x
Puissance du ventilateur du serveur 15 % à 20 % de la charge informatique 0 % (Supprimé) Gain d'efficacité immédiat
Taux de défaillance (MTBF) Baseline Prolongé (Température stable) Coût de maintenance réduit
Espace au sol requis Haut (Allées chaudes/froides) Bas (Réservoirs compacts) Gain d'espace d'environ 60 %

Défis (et solutions) liés à la conception et à la mise en œuvre

La mise en œuvre du refroidissement par immersion pour les clusters H200 nécessite de surmonter des obstacles d'ingénierie spécifiques qui vont au-delà de la simple thermodynamique. Cette transition introduit des défis physiques uniques : Compatibilité des matériaux problèmes liés à la capacité des hydrocarbures à éliminer les plastifiants des câbles ; Mèche de câble, où l'huile remonte par capillarité dans l'isolant des fils jusqu'aux zones non immergées ; et Accessibilité et entretien Les contraintes imposent de nouveaux protocoles pour la manipulation de matériel contenant de l'huile. La maîtrise de ces risques repose sur une sélection rigoureuse des matériaux, comme l'utilisation de câbles en PTFE et de matériaux d'interface thermique en feuille d'indium, ainsi que sur une conception robuste des installations.

Compatibilité des matériaux : Le tueur silencieux

Les composants standard des serveurs sont conçus pour fonctionner à l'air, et non à l'huile. Une exposition prolongée à des fluides hydrocarbonés peut entraîner une dégradation chimique de certains matériaux, provoquant une panne du système.

  • Isolation des câbles : Standard PVC (chlorure de polyvinyle) Les câbles contiennent des plastifiants qui peuvent se diffuser dans l'huile au fil du temps. Cela les rend cassants et sujets aux fissures, tout en contaminant le fluide diélectrique. Solution: Tous les câbles immergés doivent être remplacés par PTFE (téflon) or FEP isolation, qui est chimiquement inerte dans l'huile.
  • Joints et joints : Les joints en caoutchouc courants, comme l'EPDM, peuvent gonfler ou se dissoudre. Solution: Utilisez le Viton (FKM) or Nitrile (Buna-N) joints, qui ont prouvé leur stabilité à long terme dans les environnements hydrocarbonés.
  • Étiquetage: Les étiquettes en papier et les adhésifs standards se détachent et bouchent les filtres. Solution: Utilisez la gravure laser ou des étiquettes en polyester résistant à l'huile.

Le phénomène de capillarité (action capillaire)

L'huile possède une tension superficielle très faible, ce qui lui permet de remonter le long des brins de cuivre à l'intérieur d'un câble, et de parcourir potentiellement plusieurs mètres depuis le réservoir jusqu'à l'unité de distribution d'énergie (PDU) ou au commutateur réseau.

  • Risque: De l'huile qui coule sur des carreaux de sol non immergés ou qui pénètre dans les ports des équipements réseau.
  • Atténuation: Installer presse-étoupes hermétiques ou des « blocs de capillarité » à la sortie du réservoir. Autre solution : prévoir une « boucle de service » dans le cheminement du câble, qui descend en dessous du point de sortie, créant ainsi un piège par gravité.

Modification des serveurs H200 pour l'immersion

On ne peut pas simplement installer un radiateur plinthe HGX H200 standard dans un bain d'huile ; il nécessite des modifications spécifiques pour fonctionner correctement :

  • Suppression et falsification du ventilateur : Pour permettre la circulation du liquide, il est nécessaire de retirer les ventilateurs physiques. Toutefois, le BMC (Baseboard Management Controller) détectera une panne de ventilateur et empêchera le démarrage. Solution: Installer parodies de fans (petits dongles) qui envoient un faux signal tachymètre « tout va bien » à la carte mère.
  • Remplacement de la pâte thermique : La graisse thermique standard peut se dissoudre ou se dégrader dans l'huile au fil du temps. Solution: Remplacer la graisse par Feuille d'indium ou solide Matériau à changement de phase (PCM) pastilles. La feuille d'indium offre une excellente conductivité (86 W/m·K) et est insensible au lessivage chimique.
Facteur de risque Impact potentiel Stratégie d'atténuation (solution d'ingénierie)
Contamination des fluides Rigidité diélectrique réduite ; colmatage du filtre Retirez toutes les étiquettes en papier ; utilisez des câbles sans PVC ; en continu Filtration de 10 µm.
Mèche de câble Fuites d'huile à l'extérieur du réservoir (Danger pour la sécurité) Utilisez du fil à âme rigide lorsque cela est possible ; Installez blocs d'étanchéité à compression à la sortie du réservoir.
Lavage TIM Surchauffe du GPU due à la formation d'un espace Remplacer la pâte par Feuille d'indium ou des patins en graphite (stables verticalement).
Échec du joint Perte massive de fluides (Problème environnemental) Utilisez le Joints toriques Viton/FKMConcevoir des réservoirs de confinement à double paroi.

Foire Aux Questions (FAQ)

1. Le refroidissement par immersion annule-t-il la garantie NVIDIA ?

Modifier une carte mère HGX H200 standard refroidie par air en retirant les ventilateurs et les dissipateurs thermiques annulera la garantie standard. Cependant, NVIDIA travaille avec des intégrateurs système certifiés (comme Supermicro, Gigabyte, QCT) qui proposent des solutions. « prêt pour l’immersion » Références garanties pour une immersion complète dans un liquide. Pour bénéficier d'une assistance technique, privilégiez toujours l'achat de matériel certifié pour l'immersion plutôt que la conversion d'unités standard.

2. À quelle fréquence faut-il changer l'huile diélectrique ?

Les fluides diélectriques synthétiques PAO de haute qualité sont incroyablement stables. Contrairement aux solutions eau-glycol utilisées dans les boucles DLC, qui peuvent nécessiter un entretien tous les 3 à 5 ans, les huiles d'immersion monophasées ont généralement une durée de vie supérieure à [nombre manquant]. 10 à 15 ansLe fluide est filtré en continu pour éliminer les particules, et des analyses périodiques en laboratoire sont recommandées pour vérifier l'oxydation ou l'infiltration d'humidité, mais un remplacement complet est rarement nécessaire pendant le cycle de vie du serveur.

3. Puis-je adapter des serveurs H200 refroidis par air existants pour l'immersion ?

Techniquement, oui, mais cela demande beaucoup d'ingénierie. Il faut retirer tous les ventilateurs, remplacer la pâte thermique par une feuille d'indium ou des pads en graphite (car la pâte se dissout), installer des dispositifs de simulation de ventilateurs et potentiellement modifier le BIOS. Bien que possible pour des démonstrations de faisabilité, cette solution est déconseillée pour les clusters de production en raison des risques pour la garantie et des coûts de main-d'œuvre. Les serveurs d'immersion dédiés sont la meilleure option.

4. Que se passe-t-il si la pompe tombe en panne dans un réservoir d'immersion ?

L'immersion offre une marge de sécurité importante par rapport aux plaques froides. En effet, le réservoir contient plus de 1,000 litres Dans ce fluide, la masse thermique est immense. Si la circulation s'arrête, la température du fluide augmente lentement, ce qui permet aux opérateurs de… plusieurs minutes pour réagir avant que les limites de la jonction en T ne soient atteintes. De plus, les conceptions de systèmes robustes utilisent Pompes redondantes N+1, de sorte qu'une simple panne de pompe n'interrompt pas la circulation ni n'affecte les performances de refroidissement.

5. L'huile minérale est-elle inflammable ?

Les fluides diélectriques sont combustibles mais difficiles à enflammer. Les fluides d'immersion standard ont un point d'éclair élevé, généralement >150°C (302°F)Comme la température de fonctionnement de l'huile est maintenue entre 40 °C et 50 °C, la marge de sécurité est considérable, supérieure à 100 °C. Les systèmes d'extinction d'incendie sont la norme dans les centres de données, mais le risque d'inflammation spontanée est extrêmement faible comparé aux risques d'incendie d'origine électrique dans les baies refroidies par air.

6. Combien d'espace au sol le refroidissement par immersion permet-il d'économiser ?

Le refroidissement par immersion améliore considérablement l'efficacité de l'espace. Un rack standard refroidi par air peut supporter 30kWCela nécessite un espacement important pour les allées chaudes/froides. Un réservoir d'immersion peut gérer 100kW à 200kW dans un espace au sol similaire, sans avoir besoin d'allées. Cela se traduit généralement par un 60% à 75% de réduction dans l'espace blanc requis pour la même quantité de puissance de calcul.

7. Walmate peut-il concevoir des réservoirs d'immersion ou des CDU sur mesure ?

Oui. Walmate Thermal est un fabricant spécialisé dans les composants thermiques critiques des systèmes d'immersion. Nous concevons et fabriquons des systèmes à haute efficacité. échangeurs de chaleur à plaques brasées pour les CDU et collecteurs de fluides sur mesure en acier inoxydable Afin de garantir une distribution uniforme du flux dans les réservoirs, nous collaborons avec des intégrateurs de systèmes pour fournir le matériel thermique sur mesure nécessaire aux déploiements H2O0 haute densité.

Conclusion

Le système NVIDIA H200 impose une refonte complète du refroidissement. Avec des densités de serveurs dépassant les 50 kW, les limitations du refroidissement par air deviennent un frein, plafonnant les performances et faisant exploser les coûts d'exploitation. Le refroidissement par immersion dans l'huile n'est pas une simple alternative ; c'est la solution technique éprouvée pour exploiter pleinement le potentiel des infrastructures d'IA. En éliminant la résistance thermique et les consommations parasites des ventilateurs, il permet d'atteindre des performances optimales tout en réduisant considérablement la consommation d'énergie.

Le déploiement réussi de cette technologie nécessite bien plus qu'un simple réservoir ; il requiert une architecture hydraulique robuste et intégrée, capable de gérer des flux de chaleur massifs avec une fiabilité absolue.

Faites appel aux experts en refroidissement haute densité.
Walmate Thermal se spécialise dans la fabrication des composants essentiels au fonctionnement des systèmes d'immersion. De la haute efficacité échangeurs de chaleur à plaques brasées pour vos CDU à collecteurs de distribution de fluides sur mesure en acier inoxydable Conçus sur mesure pour la géométrie de votre réservoir, nous fournissons l'infrastructure thermique des centres de données de nouvelle génération. Nous vous aidons à concevoir un système capable de gérer 100 kW+ Les étagères sont faciles à monter.

Contactez dès aujourd'hui nos ingénieurs thermiques pour une consultation. Ensemble, construisons un avenir plus performant et plus économe en énergie pour l'IA.

 

Blog récent

Rechercher sur le blog Walmate

Walmate thermal peut répondre à vos questions techniques :

Bien que nous proposions de nombreux articles théoriques et partages techniques, si vous avez des questions ou des préoccupations concernant les radiateurs, les plaques refroidies par liquide ou les nouveaux matériaux utilisés dans le processus de conception thermique, n'hésitez pas à nous contacter par e-mail ; nos ingénieurs y répondront.

Vous pouvez nous envoyer un email :

Table des Matières

Contactez-Nous