Le géant de la technologie a dévoilé Apple MGIE, un modèle d’IA open source de pointe qui permet l’édition d’images via des instructions en langage naturel. MGIE, abréviation de MLLM-Guided Image Editing, exploite la puissance des grands modèles de langage multimodaux (MLLM) pour interpréter les commandes de l’utilisateur et effectuer des manipulations au niveau des pixels avec une précision remarquable.
Le modèle dispose d’un large éventail de capacités d’édition, notamment la modification de style Photoshop, l’optimisation globale des photos et l’édition locale. Cela signifie que les utilisateurs peuvent améliorer leurs images sans effort avec une simple commande de texte.
Le développement de MGIE est le résultat d’une collaboration révolutionnaire entre Apple et une équipe de chercheurs de l’Université de Californie à Santa Barbara. Le modèle a été présenté dans un document de recherche accepté à la prestigieuse Conférence internationale sur les représentations d’apprentissage (ICLR) 2024, une plateforme de premier plan pour la recherche sur l’IA. Le document présente l’efficacité impressionnante de MGIE dans l’amélioration des métriques automatiques et de l’évaluation humaine, tout en maintenant une efficacité d’inférence compétitive.
Qu’est-ce qu’Apple MGIE ?
Apple MGIE, qui signifie Multimodal Guided Image Editing, est un système développé par Apple qui utilise l’apprentissage automatique pour permettre aux utilisateurs d’éditer des images à l’aide d’instructions en langage naturel. Cela signifie qu’au lieu d’avoir à utiliser des outils ou des menus d’édition complexes, les utilisateurs peuvent simplement décrire ce qu’ils veulent faire à l’image, et MGIE effectuera automatiquement les modifications.
Tout comme d’autres outils d’image générative d’IA tels que À mi-parcours, Diffusion stableet DALL-E, Apple MGIE comble le fossé entre l’intention humaine et la manipulation d’images. Il exploite la puissance de l’apprentissage multimodal, ce qui signifie qu’il comprend à la fois les informations visuelles (l’image elle-même) et les informations textuelles (vos instructions).
Comment fonctionne Apple MGIE ?
Un utilisateur pourrait dire « Rendre le ciel de cette image plus bleu » ou « Supprimer la voiture rouge de cette photo », et MGIE serait capable de comprendre et d’exécuter ces instructions. MGIE est encore en développement, mais il a le potentiel de rendre l’édition d’images beaucoup plus facile et plus accessible à tous.
Le concept de base du flux de travail Apple MGIE est le suivant :
- Saisir vos commandes: Vous décrivez les modifications souhaitées dans un anglais simple, comme « Agrandissez les arbres de cette photo » ou « Changez la couleur de la robe en bleu ».
- Comprendre votre intention: Le modèle de langage avancé de MGIE déchiffre vos instructions, saisissant les objets, attributs et modifications spécifiques que vous avez en tête
- Compréhension visuelle: simultanément, MGIE analyse l’image, identifie les éléments clés et leurs relations
- Édition guidée: Combinant à la fois compréhension linguistique et visuelle, MGIE manipule intelligemment l’image pour refléter avec précision vos commandes. Il ne se contente pas de suivre aveuglément les instructions, mais peut également interpréter le contexte et procéder à des ajustements judicieux.
Comment utiliser MGIE
Apple MGIE s’est imposé comme un projet open source sur GitHub, offrant une approche unique de l’édition d’images via des commandes en langage naturel. Ce développement permet aux utilisateurs d’explorer et de contribuer directement au projet.
Le projet offre un accès complet à son code source, ses données de formation et ses modèles pré-entraînés sur GitHub. Cette transparence permet aux développeurs et aux chercheurs de comprendre son fonctionnement interne et potentiellement de contribuer à des améliorations.
UN Le bloc-notes de démonstration est également disponible sur GitHub, guidant les utilisateurs dans diverses tâches d’édition à l’aide d’instructions en langage naturel. Ceci constitue une introduction pratique aux capacités de MGIE.
Les utilisateurs peuvent également expérimenter MGIE via une démo Web hébergée sur Hugging Face Spaces. Cette plateforme en ligne offre un moyen rapide et pratique de tester le système sans configuration locale.
Le système accueille les commentaires des utilisateurs et permet d’affiner les modifications ou de demander différentes modifications. Cette approche itérative vise à garantir que les modifications générées correspondent à la vision artistique de l’utilisateur.
Bien que l’open source rende MGIE accessible, il est important de se rappeler qu’il reste en cours de développement. Les recherches en cours et les contributions des utilisateurs façonneront ses capacités futures et ses applications potentielles.
Crédit image en vedette: vecteur/Freepik.