Microsoft annoncé la puce Maia 200 lundi pour faire évoluer l'inférence de l'IA, avec plus de 100 milliards de transistors pour des vitesses plus rapides et une efficacité supérieure à celle du Maia 100 de 2023. Le Maia 200 offre plus de 10 pétaflops en précision 4 bits et environ 5 pétaflops en performances 8 bits. Microsoft l'appelle un cheval de bataille en silicium conçu spécifiquement pour les tâches d'inférence d'IA. Ce processus implique l'exécution de modèles d'IA entraînés pour générer des résultats, distincts de la phase de formation qui construit ces modèles. À mesure que les opérations d’IA se développent, l’inférence représente désormais une part croissante des dépenses informatiques totales, ce qui stimule les efforts de rationalisation. La société positionne le Maia 200 pour réduire les perturbations opérationnelles et la consommation d'énergie dans les déploiements d'IA. Un seul nœud équipé de la puce gère les plus grands modèles d’IA actuels tout en laissant de la capacité pour les plus grands. Microsoft a déclaré : « En termes pratiques, un seul nœud Maia 200 peut exécuter sans effort les plus grands modèles actuels, avec une grande marge pour des modèles encore plus grands à l'avenir. » Cette version s'aligne sur une tendance parmi les grandes entreprises technologiques développant des processeurs personnalisés pour réduire la dépendance à l'égard des unités de traitement graphique de Nvidia, qui dominent les charges de travail d'IA. Les GPU Nvidia sont devenus essentiels au succès de l’IA, ce qui incite à trouver des solutions alternatives pour gérer les dépenses matérielles. Google propose des unités de traitement tensoriel, ou TPU, non pas en tant que puces autonomes mais en tant que ressources de calcul basées sur le cloud. Amazon fournit des puces accélératrices Trainium AI, avec le Trainium 3 de troisième génération sorti en décembre. Ces options permettent aux entreprises de déplacer certaines charges de travail du matériel Nvidia, réduisant ainsi les coûts globaux. Microsoft affirme que le Maia 200 surpasse ses concurrents dans des indicateurs clés. Il atteint trois fois les performances FP4 des puces Trainium de troisième génération d'Amazon. Ses performances FP8 surpassent celles des TPU de septième génération de Google, comme détaillé dans le communiqué de presse de la société lundi. La puce prend déjà en charge les efforts internes d’IA. Il alimente les modèles développés par l'équipe Superintelligence de Microsoft. Les opérations du chatbot Copilot reposent également sur le matériel Maia 200. Dès lundi, Microsoft a lancé des invitations aux utilisateurs externes. Les développeurs, les universitaires et les laboratoires d'IA de pointe peuvent désormais accéder au kit de développement logiciel Maia 200 pour l'intégrer à leurs charges de travail.





