Meta a introduit deux avancées révolutionnaires dans le domaine de l’IA générative : Emu Video et Emu Edit. Ces développements marquent des progrès significatifs dans le domaine de l’IA générative, offrant aux individus des capacités de transformation leur permettant d’exprimer leur créativité de manière innovante.
Bien que l’utilisation d’images et de vidéos générées par l’IA ait fait l’objet de nombreuses critiques, leur utilisation appropriée apporte de nombreux avantages potentiels. Les utilisateurs peuvent désormais dessiner presque tout ce qu’ils peuvent imaginer en quelques secondes, y compris Bandes dessinées générées par l’IA, même sans aucune forme d’éducation. De nos jours, tout ce qu’une personne doit faire pour créer un visuel époustouflant est de réfléchir et d’écrire une invite.
Nous savons presque tous à quel point Meta s’est concentré sur les technologies d’IA ces dernières années et il y a quelques jours, ils ont annoncé deux puissants outils de génération de vidéo et d’édition d’images dans un article de blog.

Qu’est-ce qu’Emu Video ?
Emu Video est une plateforme révolutionnaire de génération de texte en vidéo qui utilise modèles de diffusion pour rationaliser le processus. Le processus de génération vidéo est divisé en deux étapes distinctes :
- Générer des images basées sur des invites textuelles
- Créer ensuite des vidéos conditionnées à la fois par du texte et des images
Cette approche permet à Emu Video d’obtenir un flux de travail plus efficace et efficient par rapport aux méthodologies précédentes qui nécessitaient plusieurs modèles. Emu Video n’utilise que deux modèles de diffusion pour produire des vidéos haute résolution (512 × 512) de quatre secondes à une cadence de 16 images par seconde.
Notamment, les évaluations humaines ont souligné les performances exceptionnelles de la génération vidéo d’Emu Video, dépassant de loin les références précédentes. En fait, 96 % des personnes interrogées ont préféré le modèle d’Emu Video à Make-A-Video en termes de qualité, avec une préférence de 85 % en termes de fidélité à l’invite de texte.
La polyvalence d’Emu Video est en outre démontrée par sa capacité à « animer » des images fournies par l’utilisateur sur la base d’invites textuelles.
Les principales fonctionnalités incluent :
- Architecture unifiée pour les tâches de génération vidéo,
- Soutien:
- Texte seulement
- Image uniquement
- Entrées combinées
- Une approche factorisée pour une formation efficace
- Performances de pointe en matière d’évaluations humaines
Emu Video représente un changement de paradigme dans la génération de texte en vidéo, en tirant parti des modèles de diffusion pour rationaliser le processus. L’approche en deux étapes de la plateforme en matière de génération de vidéo constitue un changement significatif par rapport aux méthodologies précédentes qui nécessitaient plusieurs modèles.
Dans la première étape, Emu Video génère des images basées sur des invites textuelles, tandis que dans la deuxième étape, il crée des vidéos conditionnées à la fois par du texte et des images. Cette approche permet à Emu Video d’obtenir un flux de travail plus efficace et efficient, ce qui donne lieu à des vidéos de haute qualité qui dépassent considérablement les références précédentes.
Emu Video n’utilise que deux modèles de diffusion pour produire des vidéos haute résolution (512 × 512) de quatre secondes à une cadence de 16 images par seconde. Cette approche rationalisée de la génération vidéo a été bien accueillie par les utilisateurs, avec 96 % des personnes interrogées préférant le modèle d’Emu Video à Make-A-Video en termes de qualité. De plus, 85 % des personnes interrogées ont préféré le modèle d’Emu Video en termes de fidélité à l’invite textuelle.
La polyvalence d’Emu Video est également démontrée par sa capacité à « animer » des images fournies par l’utilisateur sur la base d’invites textuelles. Cette fonctionnalité permet aux utilisateurs de créer des vidéos adaptées à leurs besoins et préférences spécifiques. Emu Video dispose également d’une architecture unifiée pour les tâches de génération vidéo, d’une prise en charge des entrées texte uniquement, images uniquement et combinées, d’une approche factorisée pour une formation efficace et de performances de pointe en matière d’évaluations humaines.
Vous en apprendrez peut-être davantage sur Emu Video en utilisant le lien ici.
Meta a également publié un site de démonstration pour les utilisateurs qui souhaitent découvrir les capacités de génération vidéo d’Emu.
Dans la démo, il existe de nombreuses options de vidéo générées dans lesquelles vous pouvez choisir le sujet, l’activité, l’emplacement et le style de génération, et il existe également un onglet de recherche pour les vidéos générées au bas du site. Même si vous ne pouvez pas générer votre propre vidéo, vous pouvez utiliser ce lien pour voir les vidéos générées par Meta lors de la recherche.

Qu’est-ce qu’Emu Edit ?
Emu Edit est une puissante plateforme d’édition d’images qui offre un contrôle précis sur les tâches d’édition d’images grâce à des techniques de reconnaissance et de génération. Contrairement aux méthodes traditionnelles de manipulation d’images qui entraînent souvent une sur-modification ou des performances insuffisantes, Emu Edit suit précisément les instructions, garantissant que seuls les pixels pertinents sont modifiés. Cela signifie que lorsque vous ajoutez du texte sur une casquette de baseball, la casquette elle-même reste inchangée. L’idée clé de Meta consiste à intégrer des tâches de vision par ordinateur sous forme d’instructions aux modèles de génération d’images, offrant ainsi un contrôle sans précédent dans la génération et l’édition d’images.
Emu a été formé sur un vaste ensemble de données d’échantillons synthétisés (10 millions) pour entraîner le modèle de Meta, ce qui a permis d’obtenir des résultats d’édition supérieurs en termes de précision des instructions et de qualité d’image. Dans les évaluations de Meta, Emu a démontré des performances de pointe pour une gamme de tâches d’édition d’images, surpassant les méthodes actuelles.
Les principales fonctionnalités d’Emu Edit incluent :
- Édition de forme libre via des instructions
- Modification précise des pixels
- Contrôle sans précédent des tâches de vision par ordinateur
Les résultats d’édition exceptionnels et les performances de pointe de la plateforme en font un excellent choix pour les utilisateurs cherchant à créer des images de haute qualité.
Les utilisateurs peuvent lire le Papier Emu Edit pour en savoir plus sur le modèle dernière génération de Meta. Le document fournit un aperçu détaillé de l’architecture, de la méthodologie de formation et des mesures de performances d’Emu Edit. Il comprend également des exemples des capacités d’Emu Edit, démontrant la polyvalence et la puissance de la plateforme.

L’ambition IA de Meta
Meta (anciennement Facebook) a investi massivement dans la recherche et le développement de l’intelligence artificielle (IA) ces dernières années, créant une large gamme de produits et d’initiatives axés sur l’IA. Ces produits sont utilisés pour améliorer les produits principaux de l’entreprise, tels que Facebook, Instagram et WhatsApp, ainsi que pour développer de nouveaux produits et services.
L’outil de traduction alimenté par l’IA de Meta Sans coutureM4T franchit de manière transparente les barrières linguistiques, permettant de traduire plus de 100 langues avec une précision remarquable.
Les capacités de reconnaissance d’images et de vidéos basées sur l’IA permettent également à Meta d’identifier des objets, des personnes et des scènes dans le contenu visuel. Cette technologie joue un rôle central pour affiner la pertinence des publicités, faciliter la découverte de contenu et lutter contre la diffusion de contenus inappropriés.
Les chatbots IA de Meta servent d’assistants numériques, fournissant un support client, répondant aux demandes de renseignements et exécutant des tâches avec efficacité et précision. Ces chatbots sont facilement accessibles sur Facebook Messenger, WhatsApp et d’autres plateformes Meta.
Les ambitions de Meta en matière d’IA s’étendent également au développement de modèles de langage avancés, tels que Lama 2. Tirant parti de la puissance de l’IA, Llama 2 a démontré des capacités remarquables en matière de compréhension du langage naturel, de réponse aux questions et de génération de texte.
Nous ne savons pas encore ce que l’avenir nous réserve, mais une chose est sûre : le développement de la technologie s’accélère et il sera bientôt beaucoup plus facile de créer un jeu AAA ou un film qui rivalisera avec un chef-d’œuvre hollywoodien.
Crédit image vedette: Igor Sourkov/Unsplash.