OpenAI dévoile la première puce d'inférence personnalisée nommée Jalapeño

OpenAI a dévoilé son premier processeur d’inférence sur mesure, nommé Jalapeño, qui a été développé en collaboration avec Broadcom. Le processeur répond spécifiquement aux exigences distinctes des systèmes d’inférence d’OpenAI, la société affirmant que ses propres modèles d’IA ont contribué à son développement.

La puce est encore en cours de test, mais les premiers résultats indiquent une amélioration significative des performances par watt par rapport aux principales alternatives actuelles. Le partenariat d’OpenAI avec Broadcom a été officiellement annoncé en octobre et la création de puces personnalisées a été considérée comme une stratégie visant à réduire la dépendance à l’égard des unités de traitement graphique de Nvidia.

Google et Amazon ont créé des puces personnalisées comparables, appelées « accélérateurs d’IA », pour accélérer les tâches d’apprentissage automatique. Dans un podcast interne, le président d’OpenAI, Greg Brockman, a discuté de la stratégie de développement de puces de l’entreprise après avoir annoncé le partenariat avec Broadcom. « Nous comprenons parfaitement la charge de travail », a déclaré Brockman. « Nous recherchons vraiment des charges de travail spécifiques qui sont mal desservies, [et nous demandons] comment pouvons-nous créer quelque chose qui sera capable d’accélérer ce qui est possible ?

Jalapeño est conçu pour les tâches d’inférence, qui impliquent l’application de modèles d’IA prédéfinis basés sur les commandes de l’utilisateur. Selon OpenAI, la puce offre de faibles coûts d’exploitation lors de la gestion des modèles de codage en temps réel. Cependant, les processus gourmands en performances tels que la pré-formation peuvent toujours nécessiter du matériel Nvidia. Même des réductions mineures des coûts d’inférence pourraient améliorer considérablement la rentabilité d’OpenAI.

L’optimisation du système d’inférence est essentielle pour l’économie future de l’IA, et l’entreprise étend ses capacités à l’ensemble de la pile technologique. OpenAI développe simultanément des produits tels que Codex et les modèles qui les prennent en charge, tout en établissant des centres de données pour le déploiement de modèles. Le passage au silicium personnalisé devrait améliorer encore ces efficacités opérationnelles.

OpenAI a précisé que sa stratégie englobe la conception de composants d’infrastructure, notamment l’architecture des puces, les noyaux, les systèmes de mémoire, la mise en réseau, la planification et les systèmes de déploiement. Cette approche globale permet une optimisation sur toutes les couches technologiques, dans le but de fournir aux utilisateurs des modèles plus rapides, plus fiables et plus rentables.

Crédit image en vedette