Les GPU Blackwell de Nvidia sont confrontés à des problèmes de surchauffe affectant les principaux clients technologiques. Les processeurs de nouvelle génération ont du mal à fonctionner efficacement dans des racks de serveurs abritant 72 GPU, ce qui suscite des inquiétudes chez des entreprises comme Google, Meta et Microsoft quant à leur déploiement en temps opportun. Les rapports indiquent que Nvidia réévalue à plusieurs reprises la conception de ses racks en raison de ces problèmes de surchauffe, qui risquent d’endommager les composants et de limiter les performances du GPU. La consommation électrique prévue pour ces configurations peut atteindre 120 kW par rack.
Les initiés informés Les informations que les GPU Blackwell de Nvidia pour l’IA et le calcul haute performance (HPC) ont surchauffé dans les serveurs haute capacité, affectant les délais de lancement pour les clients s’appuyant sur ces technologies. Afin de résoudre les complications liées à ces problèmes de surchauffe, Nvidia a demandé à ses fournisseurs de modifier à plusieurs reprises la conception des racks. Un porte-parole de Nvidia a souligné son approche collaborative avec les services cloud, décrivant les modifications de conception comme une partie courante du processus de développement.
Ajustements de conception pour contrer les problèmes de surchauffe
Auparavant, les retards dans la rampe de production de Blackwell étaient attribués à un défaut de conception « nuisible au rendement ». Le GPU Blackwell B100 et B200 utilisez la technologie de packaging CoWoS-L de TSMC, qui intègre deux chipsets pour des vitesses de transfert de données améliorées allant jusqu’à 10 To/s. Cependant, une inadéquation des caractéristiques de dilatation thermique entre les chipsets GPU et d’autres composants a entraîné des déformations et des pannes du système. Pour résoudre ce problème, Nvidia a apporté des modifications aux couches métalliques et aux structures de bosses du silicium GPU.
Le résultat de ces améliorations n’est entré en production de masse qu’à la fin octobre, les dates d’expédition prévues étant repoussées à fin janvier. Ce délai est critique pour les clients de Nvidia comme Google, Métaet Microsoftqui dépendent de ces GPU pour améliorer leurs modèles d’IA les plus puissants. Nvidia avait précédemment vanté les puces Blackwell comme étant 30 fois plus rapides pour des tâches telles que répondre aux requêtes des chatbots par rapport aux modèles précédents.
Les revenus des puces Blackwell de Nvidia devraient atteindre 6 milliards de dollars au prochain trimestre, soulignant la forte demande malgré les contraintes d’approvisionnement persistantes. Nvidia, qui a récemment dépassé Apple, est désormais l’entreprise la plus valorisée au monde, avec une capitalisation boursière qui atteint 3 482 milliards de dollars. Cependant, les revers continus concernant les processeurs Blackwell menacent de perturber les progrès prévus en matière de capacités d’IA essentielles pour les principaux acteurs technologiques.
Crédit image en vedette : Nvidia