Oracle a annoncé son OCI Zettascale10, une solution basée sur le cloud Supercalculateur IA il prétend offrir 16 zettaFLOPS de performances maximales. Le système, utilisant 800 000 GPU Nvidia, est conçu pour prendre en charge des charges de travail d’IA à grande échelle développées par des partenaires, dont OpenAI. La société affirme que le système peut atteindre des performances maximales de 16 zettaFLOPS réparties sur ses 800 000 GPU Nvidia. Ce niveau de sortie, calculé par GPU, équivaut à environ 20 pétaflops pour chaque unité. Cette mesure de performance individuelle est comparable à la sortie de la puce Grace-Blackwell GB300 Ultra, un composant utilisé dans les systèmes de bureau haut de gamme spécialement conçus pour les tâches d’intelligence artificielle. Le chiffre total positionne le Zettascale10 comme une entrée significative dans l’infrastructure informatique à grande échelle. Oracle a identifié la plate-forme comme l’infrastructure fondamentale du cluster Stargate d’OpenAI, situé à Abilene, au Texas. Cette installation est en cours de construction pour gérer certaines des charges de travail d’IA les plus exigeantes qui émergent actuellement des initiatives de recherche et des applications commerciales. Peter Hoeschele, vice-président de l’infrastructure et du calcul industriel chez OpenAI, a déclaré : « La conception RoCE personnalisée hautement évolutive maximise les performances à l’échelle du tissu à l’échelle du gigawatt tout en gardant l’essentiel de la puissance concentrée sur le calcul. » Au cœur du système Zettascale10 se trouve l’architecture réseau Oracle Acceleron RoCE, qui a été conçue pour améliorer l’évolutivité et la fiabilité des opérations d’IA gourmandes en données. Cette conception utilise des cartes d’interface réseau qui fonctionnent comme des commutateurs miniatures, créant des liens directs entre les GPU sur plusieurs plans réseau isolés. Cette configuration vise à réduire la latence dans la communication entre les GPU. Il fournit également une redondance, permettant aux tâches de calcul de poursuivre leur traitement sans interruption, même en cas de panne de l’un des chemins réseau. Le rôle de Nvidia dans le système a été souligné par Ian Buck, vice-président d’Hyperscale au sein de l’entreprise. « Doté de l’infrastructure d’IA full-stack de Nvidia, OCI Zettascale10 fournit la structure informatique nécessaire pour faire progresser la recherche de pointe en matière d’IA et aider les organisations du monde entier à passer de l’expérimentation à l’IA industrialisée », a déclaré Buck. Oracle affirme également que sa structure de réseau peut réduire les coûts en simplifiant les niveaux au sein de la structure réseau tout en offrant des performances cohérentes sur tous les nœuds. Le système introduit les technologies Linear-Pluggable et Receiver Optics, visant à réduire à la fois la consommation d’énergie et les besoins de refroidissement sans sacrifier la bande passante. Les performances revendiquées par Oracle pour 16 zettaFLOPS n’ont pas été vérifiées de manière indépendante. Les mesures de performance des systèmes cloud peuvent différer en fonction de la méthodologie utilisée pour le calcul, et le chiffre de l’entreprise peut être basé sur des performances théoriques maximales plutôt que sur des taux opérationnels soutenus. Étant donné que la puissance totale annoncée du système est égale à la somme de ses 800 000 GPU fonctionnant à leur potentiel maximum, son efficacité réelle dépendra considérablement de facteurs tels que la conception du réseau et l’optimisation des logiciels. Les analystes devraient attendre de voir si la configuration offre des performances comparables à celles des clusters d’IA établis par d’autres grands fournisseurs de cloud. Le système Zettascale10 est conçu pour permettre aux clients de former et de déployer de grands modèles d’IA dans l’environnement cloud distribué d’Oracle, qui inclut des mesures de souveraineté des données. Mahesh Thiagarajan, vice-président exécutif d’Oracle Cloud Infrastructure, a commenté : « Avec OCI Zettascale10, nous fusionnons l’architecture réseau Oracle Acceleron RoCE d’OCI avec l’infrastructure d’IA Nvidia de nouvelle génération pour fournir une capacité d’IA de plusieurs gigawatts à une échelle inégalée. Il a ajouté que les clients peuvent créer et former des modèles en utilisant moins d’énergie et fonctionner avec « une forte souveraineté en matière de données et d’IA ». Le système offre également une flexibilité opérationnelle grâce à une maintenance indépendante au niveau de l’avion, qui permet des mises à jour avec des temps d’arrêt réduits. Les observateurs ont noté que d’autres grands fournisseurs de cloud construisent simultanément leurs propres clusters GPU à grande échelle et développent des systèmes de stockage cloud avancés, ce qui pourrait réduire tout avantage concurrentiel détenu par Oracle. Le déploiement du système Zettascale10 est prévu pour l’année prochaine. Sa capacité à répondre à la demande croissante de calcul d’IA évolutif, efficace et fiable sera évaluée après son déploiement.





