Elon Musk a une fois de plus fait la une des journaux en donnant au monde un aperçu de Cortex, le supercalculateur d’entraînement de l’IA de X actuellement en construction à L’usine Tesla de Giga TexasDans une vidéo à la fois impressionnante et surréaliste, Elon Musk a montré à quoi ressemble réellement un GPU d’IA d’une valeur d’un milliard de dollars. Mais comme si cela ne suffisait pas à laisser bouche bée les passionnés de technologie, Elon Musk s’est récemment rendu sur sa plateforme, X, pour révéler que le véritable clou du spectacle – Colossus, un cluster d’entraînement de 100 000 H100 – est officiellement en ligne.
Que sont exactement les clusters d’IA ?
Un cluster d’IA est un cerveau géant composé de milliers d’ordinateurs travaillant ensemble pour traiter d’énormes quantités d’informations à une vitesse fulgurante. Au lieu d’un seul ordinateur, les clusters comme Colossus utilisent des milliers de machines spécialisées, chacune équipée de puces puissantes (appelées GPU), conçues pour gérer les calculs incroyablement complexes nécessaires à l’intelligence artificielle.
Ces clusters entraînent les modèles d’IA en leur fournissant de vastes quantités de données. Imaginez cela comme si vous enseigniez à un élève en lui donnant des milliers de livres à lire en peu de temps.
Tous les détails concernant le Colossus de xAI
Elon Musk n’a pas hésité à se vanter en affirmant que Colossus est « le système de formation d’IA le plus puissant au monde ». Ce qui est encore plus impressionnant, c’est que ce projet gigantesque a été construit « du début à la fin » en seulement 122 jours.
Compte tenu de l’ampleur et de la complexité du projet, ce n’est pas une mince affaire. Les serveurs du cluster xAI ont été fournis par Dell et Supermicro, et bien qu’Elon Musk n’ait pas donné de chiffre exact, les estimations situent le coût entre 3 et 4 milliards de dollars.
Ce week-end, le @xAI L’équipe a mis en ligne notre groupe de formation Colossus 100k H100. Du début à la fin, cela a été fait en 122 jours.
Colossus est le système de formation d’IA le plus puissant au monde. De plus, sa taille va doubler pour atteindre 200 000 (50 000 H200) dans quelques mois.
Excellent…
— Elon Musk (@elonmusk) 2 septembre 2024
Maintenant, c’est là que les choses deviennent vraiment intéressantes. Bien que le système soit opérationnel, on ne sait pas exactement combien de ces clusters sont pleinement fonctionnels aujourd’hui. Ce n’est pas rare avec des systèmes de cette envergure, car ils nécessitent un débogage et une optimisation approfondis avant de pouvoir fonctionner à plein régime. Mais lorsqu’il s’agit d’un système de l’ampleur de Colossus, chaque détail compte, et même une fraction de son potentiel total pourrait surpasser la plupart des autres systèmes.
L’avenir s’annonce encore plus intense. Colossus devrait doubler de taille, avec l’intention d’ajouter 100 000 GPU supplémentaires, répartis entre les unités H100 actuelles de Nvidia et les très attendues puces H200. Cette mise à niveau alimentera principalement la formation du modèle d’IA le plus récent et le plus avancé de xAI, Grok-3, qui vise à repousser les limites de ce que nous considérons comme possible en IA.
Crédits de l’image en vedette : BolivieInteligente/Unsplash