Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Apple MGIE amène un acteur attendu dans l’industrie de l’IA

byEmre Çıtak
février 6, 2024
in Non classé

Le géant de la technologie a dévoilé Apple MGIE, un modèle d’IA open source de pointe qui permet l’édition d’images via des instructions en langage naturel. MGIE, abréviation de MLLM-Guided Image Editing, exploite la puissance des grands modèles de langage multimodaux (MLLM) pour interpréter les commandes de l’utilisateur et effectuer des manipulations au niveau des pixels avec une précision remarquable.

Le modèle dispose d’un large éventail de capacités d’édition, notamment la modification de style Photoshop, l’optimisation globale des photos et l’édition locale. Cela signifie que les utilisateurs peuvent améliorer leurs images sans effort avec une simple commande de texte.

Le développement de MGIE est le résultat d’une collaboration révolutionnaire entre Apple et une équipe de chercheurs de l’Université de Californie à Santa Barbara. Le modèle a été présenté dans un document de recherche accepté à la prestigieuse Conférence internationale sur les représentations d’apprentissage (ICLR) 2024, une plateforme de premier plan pour la recherche sur l’IA. Le document présente l’efficacité impressionnante de MGIE dans l’amélioration des métriques automatiques et de l’évaluation humaine, tout en maintenant une efficacité d’inférence compétitive.

Apple MGIE
Apple a dévoilé Apple MGIE, un modèle d’IA open source de pointe pour l’édition d’images via des instructions en langage naturel (Crédit image)

Qu’est-ce qu’Apple MGIE ?

Apple MGIE, qui signifie Multimodal Guided Image Editing, est un système développé par Apple qui utilise l’apprentissage automatique pour permettre aux utilisateurs d’éditer des images à l’aide d’instructions en langage naturel. Cela signifie qu’au lieu d’avoir à utiliser des outils ou des menus d’édition complexes, les utilisateurs peuvent simplement décrire ce qu’ils veulent faire à l’image, et MGIE effectuera automatiquement les modifications.

Tout comme d’autres outils d’image générative d’IA tels que À mi-parcours, Diffusion stableet DALL-E, Apple MGIE comble le fossé entre l’intention humaine et la manipulation d’images. Il exploite la puissance de l’apprentissage multimodal, ce qui signifie qu’il comprend à la fois les informations visuelles (l’image elle-même) et les informations textuelles (vos instructions).

Apple MGIE
Apple MGIE offre une gamme de fonctionnalités d’édition, notamment la modification de style Photoshop, l’optimisation globale des photos et l’édition locale (Crédit image)

Comment fonctionne Apple MGIE ?

Un utilisateur pourrait dire « Rendre le ciel de cette image plus bleu » ou « Supprimer la voiture rouge de cette photo », et MGIE serait capable de comprendre et d’exécuter ces instructions. MGIE est encore en développement, mais il a le potentiel de rendre l’édition d’images beaucoup plus facile et plus accessible à tous.

Le concept de base du flux de travail Apple MGIE est le suivant :

  • Saisir vos commandes: Vous décrivez les modifications souhaitées dans un anglais simple, comme « Agrandissez les arbres de cette photo » ou « Changez la couleur de la robe en bleu ».
  • Comprendre votre intention: Le modèle de langage avancé de MGIE déchiffre vos instructions, saisissant les objets, attributs et modifications spécifiques que vous avez en tête
  • Compréhension visuelle: simultanément, MGIE analyse l’image, identifie les éléments clés et leurs relations
  • Édition guidée: Combinant à la fois compréhension linguistique et visuelle, MGIE manipule intelligemment l’image pour refléter avec précision vos commandes. Il ne se contente pas de suivre aveuglément les instructions, mais peut également interpréter le contexte et procéder à des ajustements judicieux.
Apple MGIE
Le modèle a été présenté dans un document de recherche accepté lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) 2024. (Crédit image)

Comment utiliser MGIE

Apple MGIE s’est imposé comme un projet open source sur GitHub, offrant une approche unique de l’édition d’images via des commandes en langage naturel. Ce développement permet aux utilisateurs d’explorer et de contribuer directement au projet.

Le projet offre un accès complet à son code source, ses données de formation et ses modèles pré-entraînés sur GitHub. Cette transparence permet aux développeurs et aux chercheurs de comprendre son fonctionnement interne et potentiellement de contribuer à des améliorations.

UN Le bloc-notes de démonstration est également disponible sur GitHub, guidant les utilisateurs dans diverses tâches d’édition à l’aide d’instructions en langage naturel. Ceci constitue une introduction pratique aux capacités de MGIE.

Les utilisateurs peuvent également expérimenter MGIE via une démo Web hébergée sur Hugging Face Spaces. Cette plateforme en ligne offre un moyen rapide et pratique de tester le système sans configuration locale.

Le système accueille les commentaires des utilisateurs et permet d’affiner les modifications ou de demander différentes modifications. Cette approche itérative vise à garantir que les modifications générées correspondent à la vision artistique de l’utilisateur.

Bien que l’open source rende MGIE accessible, il est important de se rappeler qu’il reste en cours de développement. Les recherches en cours et les contributions des utilisateurs façonneront ses capacités futures et ses applications potentielles.


Crédit image en vedette: vecteur/Freepik.

Related Posts

Chrome déploie l’IA locale pour détecter de nouvelles escroqueries Web émergentes

Chrome déploie l’IA locale pour détecter de nouvelles escroqueries Web émergentes

mai 9, 2025
Apprentissage automatique basé sur un modèle (MBML)

Apprentissage automatique basé sur un modèle (MBML)

mai 9, 2025
Apprentissage automatique basé sur un modèle (MBML)

Traçage des performances ML

mai 9, 2025
Apple développe de nouvelles puces pour les lunettes et les macs intelligents AI

Apple développe de nouvelles puces pour les lunettes et les macs intelligents AI

mai 9, 2025
Skymizer lance Hyperthought Ai IP pour les appareils Smart Edge

Skymizer lance Hyperthought Ai IP pour les appareils Smart Edge

mai 9, 2025
Sigenergy fléchit la suite d’énergie complète de l’IAT à l’Europe intersolaire

Sigenergy fléchit la suite d’énergie complète de l’IAT à l’Europe intersolaire

mai 9, 2025

Recent Posts

  • Chrome déploie l’IA locale pour détecter de nouvelles escroqueries Web émergentes
  • Apprentissage automatique basé sur un modèle (MBML)
  • Traçage des performances ML
  • Apple développe de nouvelles puces pour les lunettes et les macs intelligents AI
  • Skymizer lance Hyperthought Ai IP pour les appareils Smart Edge

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.