Parmi les nombreux systèmes critiques d'un centre de données, les technologies de refroidissement évoluent le plus rapidement, nécessitent la courbe d'apprentissage la plus raide et comportent les plus grands risques opérationnels. Les projets de centres de données à grande échelle impliquent souvent des investissements de plusieurs milliards, ce qui rend toute erreur de conception extrêmement coûteuse. De plus, à mesure que la demande de centres de données évolue rapidement, l'infrastructure informatique est confrontée au risque d'une dépréciation accélérée.
Défis et idées fausses courantes en matière de refroidissement des centres de données
Aujourd'hui, la densité de chaleur par pied carré dans un centre de données peut être plus de 50 fois supérieure à celle d'un bureau typique, les charges informatiques dépassant fréquemment 30 MW. Les systèmes de refroidissement sont conçus pour maintenir l'équipement informatique dans des plages de température optimales, comme le maintien des clusters NVIDIA DGX H100 entre 5 °C et 30 °C. S'écarter de ces plages peut raccourcir la durée de vie de l'équipement, et comme les serveurs et le matériel représentent une part importante du coût total de possession (TCO) d'un centre de données, un refroidissement efficace est crucial.
Actuellement, outre l'équipement informatique lui-même, le refroidissement est devenu la deuxième dépense en capital la plus importante dans les centres de données, juste après les systèmes électriques. Alors que les architectures de refroidissement se diversifient et que l'efficacité énergétique devient plus critique, les solutions de refroidissement constituent désormais un défi de conception fondamental. Pour les fournisseurs de services cloud, les coûts énergétiques liés au refroidissement sont une préoccupation opérationnelle majeure, nécessitant un équilibrage minutieux au niveau du système.
Les malentendus sont fréquents concernant les moteurs de l'adoption du refroidissement liquide et les tendances futures en matière de refroidissement dans les centres de données d'IA et de formation. Certains pensent que le refroidissement liquide est toujours plus économe en énergie que le refroidissement par air, ou que le refroidissement par air ne peut pas gérer les puces avec des puissances nominales supérieures à 1000 W. D'autres pensent que les serveurs à faible consommation avec refroidissement par air sont meilleurs pour les scénarios d'inférence. Cependant, le véritable moteur de l'adoption du refroidissement liquide est l'optimisation du TCO pour la puissance de calcul de l'IA, et non pas seulement les économies d'énergie ou les références « plus écologiques ».
La véritable valeur du refroidissement liquide : densité et optimisation du TCO
Le refroidissement liquide n'est pas nouveau : les centres de données des années 1960 l'utilisaient pour refroidir les ordinateurs centraux IBM. Pourtant, les centres de données modernes ont longtemps privilégié le refroidissement par air, grâce à son coût initial inférieur et à une chaîne d'approvisionnement mature. À mesure que l'échelle des centres de données a augmenté, la technologie de refroidissement par air a suivi le rythme, permettant des densités de puissance par rack toujours plus élevées tout en maintenant l'efficacité énergétique.
Aujourd'hui encore, le refroidissement par air domine l'espace de l'IA. Par exemple, la conception de référence de NVIDIA pour les déploiements H100 permet jusqu'à quatre serveurs refroidis par air par rack, avec une consommation électrique totale de 41 kW. Dans de nombreux centres de données, cela signifie que les opérateurs laissent souvent la moitié de leurs racks vides pour éviter la surchauffe. Des technologies comme les échangeurs de chaleur à porte arrière et les armoires à flux d'air fermées peuvent pousser les densités par rack au-dessus de 50 kW, mais le principal facteur limitant est souvent la taille physique et les exigences de refroidissement des serveurs eux-mêmes.
Bien que le refroidissement liquide ait été autrefois considéré comme coûteux, son coût global est relativement modeste par rapport au cycle de vie de l'équipement informatique. La véritable valeur réside dans la maximisation des performances informatiques : le refroidissement liquide permet de regrouper de manière dense et de refroidir efficacement davantage de GPU et d'accélérateurs d'IA, ce qui permet d'obtenir une densité de calcul plus élevée et une plus grande collaboration entre les accélérateurs.
Un excellent exemple est le système NVIDIA GB200 NVL72, qui utilise le refroidissement liquide direct sur puce (DLC) pour prendre en charge 72 GPU dans un seul rack de 120 kW. Cette percée permet un TCO considérablement plus faible pour la formation et l'inférence de modèles linguistiques volumineux (LLM), et établit une nouvelle norme pour les centres de données haute densité et haute performance.
Repenser l'économie du refroidissement des centres de données
Bien que le refroidissement liquide puisse réduire les coûts d'exploitation (en économisant sur l'alimentation des ventilateurs des serveurs, soit environ 70 % de la consommation d'énergie liée au refroidissement), ces économies à elles seules ne suffisent pas à justifier un passage complet du refroidissement par air au refroidissement liquide. L'investissement initial plus élevé, la complexité accrue de la maintenance et une chaîne d'approvisionnement moins mature sont tous des facteurs critiques. Bien que le refroidissement liquide permette d'économiser de l'espace physique, l'espace au sol est rarement la ressource la plus chère d'un centre de données : la plupart des coûts sont encore liés à la charge informatique.
La physique et la mise en œuvre du refroidissement liquide
Le refroidissement liquide est plus efficace car un volume donné de liquide peut absorber environ 4 000 fois plus de chaleur que l'air. Cependant, le pompage de liquide (qui est ~830 fois plus dense que l'air) nécessite plus d'énergie, et l'énergie nécessaire est directement proportionnelle au débit. Le refroidissement liquide direct sur puce peut augmenter considérablement la densité des racks, mais présente des défis tels que les tubes, les diamètres de tuyaux plus grands et la nécessité de matériaux plus coûteux.
Dans une configuration typique, des plaques froides en cuivre sont fixées aux composants les plus chauds (CPU et GPU), avec de l'eau réfrigérée circulant à travers des collecteurs de distribution au niveau des racks. D'autres composants, tels que les NIC et les périphériques de stockage, dépendent toujours des ventilateurs pour le refroidissement.
Généralement, une unité de distribution de refroidissement (CDU) gère le système, au niveau de la rangée ou du rack. Bien que les déploiements à grande échelle utilisent souvent des CDU au niveau des rangées pour des raisons de coût et d'efficacité de la maintenance, les CDU intégrés au niveau des racks sont de plus en plus populaires pour un déploiement rapide et une responsabilité claire des fournisseurs. Dans tous les cas, la CDU est située dans l'espace blanc du centre de données.
À l'avenir, bien que le DLC monophasé soit prêt pour une adoption massive, la recherche sur les technologies de refroidissement diphasé et par immersion est en cours (plus sur le refroidissement de nouvelle génération).
Choisir la bonne solution de refroidissement
Alors que les technologies de refroidissement des centres de données deviennent de plus en plus sophistiquées, choisir la bonne solution est essentiel pour les opérateurs qui cherchent à maximiser la densité de calcul tout en minimisant les coûts et les risques. Chez Coolnet, nous proposons une gamme complète de solutions de refroidissement pour centres de données, du refroidissement par air traditionnel au refroidissement liquide avancé, conçues pour répondre aux besoins des charges de travail d'IA et de cloud haute densité.
Si vous souhaitez en savoir plus sur les dernières nouveautés en matière de conception de centres de données modulaires ou voir comment les centres de données modulaires préfabriqués de Coolnet intègrent des technologies de refroidissement avancées, contactez-nous pour une consultation gratuite.
Références :
Solutions de centres de données NVIDIA
China IDC Circle : Tendances en matière de refroidissement des centres de données