NVIDIA a dévoilé Fugatto, un modèle d’IA générative capable de créer et de modifier du contenu audio. Le modèle vise à aider les producteurs de musique, les créateurs de films et les développeurs de jeux en leur permettant de générer de nouveaux sons via des invites textuelles. Fugatto combine diverses capacités de génération audio, en utilisant des algorithmes avancés pour améliorer les processus créatifs dans l’industrie audio.
NVIDIA dévoile Fugatto, une IA générative pour la création audio
Fugattoabréviation de Foundational Generative Audio Transformer Opus 1, a été introduit par NVIDIA, le premier fournisseur mondial de puces et de logiciels pour les systèmes d’IA. La technologie peut générer et modifier le son à partir de fichiers audio existants, ce qui la distingue des modèles précédents. Par exemple, il peut transformer une mélodie de piano en voix humaine ou modifier l’accent et le ton émotionnel d’un enregistrement parlé. Cette flexibilité permet aux créateurs d’explorer une gamme d’applications innovantes dans différents domaines.
L’équipe derrière Fugatto est composée de plus d’une douzaine de chercheurs, dont Rafael Valle, responsable de la recherche audio appliquée chez NVIDIA. Valle a souligné l’objectif du projet : « Nous voulions créer un modèle qui comprend et génère le son comme le font les humains. » La clé de la conception de Fugatto réside dans sa capacité à intégrer plusieurs tâches liées à la génération et à la transformation audio, mettant en valeur les propriétés émergentes découlant de ses nombreuses données de formation.
Les utilisateurs peuvent demander à Fugatto des invites de forme libre pour créer des paysages sonores, des extraits de musique ou même des effets sonores uniques. Par exemple, un producteur pourrait rapidement prototyper différents styles ou instruments pour un morceau. Notamment, Fugatto propose des techniques telles que ComposableART, permettant aux utilisateurs de fusionner différentes commandes. Les tests ont révélé des résultats surprenants, comme le suggère Rohan Badlani, un chercheur en IA impliqué dans le modèle, qui a décrit l’expérience comme artistiquement enrichissante malgré sa formation technique.
Au cours de sa formation, Fugatto a utilisé 2,5 milliards de paramètres et a été développé sur les puissants systèmes DGX de NVIDIA dotés de 32 GPU H100 Tensor Core. La formation du modèle s’est appuyée sur un ensemble de données diversifié et mélangé comprenant des millions d’échantillons audio, améliorant ainsi sa fonctionnalité multi-accent et multilingue. Ce projet ambitieux a également pris plus d’un an à développer, l’équipe ayant surmonté plusieurs défis en matière de génération de données et de formation de modèles.
Fugatto propose plusieurs applications potentielles, notamment pour les agences de publicité et les plateformes d’apprentissage des langues. Il a été suggéré que les campagnes marketing pourraient bénéficier de sa capacité à adapter les voix off avec différents accents ou ambiances. Dans le domaine de l’éducation, les apprenants peuvent bénéficier de cours personnalisés mettant en vedette des voix familières. Les développeurs de jeux pourraient adapter l’audio du jeu de manière dynamique, en intégrant des éléments interactifs qui répondent aux actions de l’utilisateur.
Bien que les capacités de Fugatto soient impressionnantes, NVIDIA n’a pas annoncé son intention de rendre cette technologie accessible au public dans l’immédiat. La société exprime ses inquiétudes quant à une éventuelle utilisation abusive de l’IA générative. Bryan Catanzaro, vice-président de la recherche appliquée en apprentissage profond chez NVIDIA, souligne l’importance de la prudence étant donné les risques associés à une telle technologie. OpenAI et d’autres entreprises du domaine sont confrontées à des défis similaires concernant le déploiement responsable de leurs modèles, notamment en matière de droits de propriété intellectuelle et de désinformation.
Crédit image en vedette : Nvidia