Lors de sa conférence GTC, NVIDIA dévoilé NVIDIA NIM, un plateforme logicielle conçue pour simplifier l’intégration de modèles d’IA personnalisés et pré-entraînés dans les paramètres opérationnels. NIM exploite l’expertise de NVIDIA en matière d’inférence et d’optimisation de modèles, offrant une approche accessible en fusionnant tout modèle sélectionné avec un moteur d’inférence finement réglé et en encapsulant cette combinaison dans un conteneur, pour la fournir ensuite sous forme de microservice.
NVIDIA affirme que ce qui nécessiterait normalement plusieurs semaines, voire plusieurs mois, pour les développeurs en termes de déploiement de conteneurs peut être accéléré via NIM, en particulier dans les scénarios où une entreprise peut manquer d’expertise interne en IA. L’objectif stratégique de NVIDIA avec NIM est de favoriser un réseau de conteneurs préparés pour l’IA et construits sur son infrastructure matérielle, ces microservices spécialisés agissant comme le principal composant logiciel pour les organisations désireuses d’accélérer leurs initiatives en matière d’IA.
Actuellement, NIM étend la prise en charge aux modèles provenant de NVIDIA, A121, Adept, Cohere, Getty Images et Shutterstock, ainsi que les modèles open source de Google, Hugging Face, Meta, Microsoft, Mistral AI et Stability AI. NVIDIA collabore activement avec Amazon, Google et Microsoft rendre les microservices NIM accessibles via SageMaker, Kubernetes Engine et Azure AI, en conséquence. Ces services sont sur le point d’être intégrés à des plateformes comme Deepset, LangChain et LlamaIndex.
« Nous pensons que le GPU NVIDIA est le meilleur endroit pour exécuter l’inférence de ces modèles sur […]et nous pensons que NVIDIA NIM est le meilleur progiciel, le meilleur environnement d’exécution, sur lequel les développeurs peuvent s’appuyer afin qu’ils puissent se concentrer sur les applications d’entreprise », a déclaré Manuvir Das, responsable de l’informatique d’entreprise de NVIDIA, lors d’un point de presse avant les annonces d’aujourd’hui.
Concernant le moteur d’inférence, NVIDIA prévoit d’implémenter le Serveur d’inférence Tritonaux côtés de TensorRT et TensorRT-LLM pour ses opérations. Parmi les offres proposées par NVIDIA via NIM figurent Riva, conçu pour adapter les modèles de parole et de traduction, cuOpt pour améliorer les processus de routage, et le modèle Terre-2développé pour les simulations avancées de prévisions météorologiques et climatiques.

NVIDIA s’engage à élargir sa suite de services, en introduisant progressivement de nouvelles fonctionnalités. Un ajout à venir est l’opérateur NVIDIA RAG LLM en tant que service NIM.visant à simplifier la création de chatbots génératifs d’IA capables d’incorporer des données personnaliséesfacilitant considérablement le processus de développement.
Soulignant l’importance de la communauté et des partenariats, la conférence a également mis en lumière les engagements avec des entreprises de premier plan telles que Box, Cloudera, Cohesity, Datastax, Dropbox et NetApp utilisent actuellement les services NIM.
« Les plateformes d’entreprise établies reposent sur une mine d’or de données qui peuvent être transformées en copilotes d’IA générative. Créés avec notre écosystème de partenaires, ces microservices d’IA conteneurisés sont les éléments de base permettant aux entreprises de tous les secteurs de devenir des sociétés d’IA », a déclaré Jensen Huang, PDG de NVIDIA.
Que fait réellement NVDIA NIM ?
Fondamentalement, un NIM constitue un conteneur rempli de microservices. Ce conteneur est capable d’incorporer n’importe quel type de modèle, de l’open source au propriétaire, à condition qu’il fonctionne sur un GPU NVIDIA, qu’il soit hébergé dans le cloud ou simplement dans un ordinateur portable. Par conséquentle conteneur peut être déployé dans n’importe quel environnement prenant en charge les conteneurs, y compris les configurations Kubernetes dans le cloud, les serveurs Linux ou même dans des frameworks Function-as-a-Service sans serveur.. NVIDIA s’apprête à introduire une fonctionnalité sans serveur sur son prochain ai.nvidia.com portail, offrant aux développeurs un moyen de collaborer avec NIM avant son déploiement.
Il est important de noter, NIM n’a pas pour objectif de supplanter les précédentes méthodologies de livraison de modèles de NVIDIA.. Il s’agit plutôt d’un conteneur spécialisé qui regroupe un modèle hautement raffiné adapté aux GPU NVIDIA, ainsi que les technologies essentielles pour améliorer les performances d’inférence.
La question pressante concerne la transition vers la production. Comment les prototypes initiaux, développés avec notre aide, peuvent-ils progresser pour fournir des résultats commerciaux tangibles grâce au déploiement en production à l’aide de ces modèles ? Nvidia, aux côtés d’un consortium de principaux fournisseurs de données, considère NIM comme une solution à ce dilemme. La fonctionnalité de base de données vectorielles est essentielle pour l’activation de RAG, prise en charge par divers fournisseurs de bases de données vectorielles, notamment Apache Lucene, Datastax, Faiss, Kinetica, Milvus, Redis et Weaviate.
Crédit image en vedette : Kerem Gülen/DALL-E 3