Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

L’essor de la synchronisation labiale de l’IA : de l’étrange vallée à l’hyperréalisme

byStewart Rogers
novembre 5, 2024
in Conversations, Intelligence Artificielle, Interviews
Home Conversations
Share on FacebookShare on Twitter
Google Preferred Source

Vous vous souvenez du doublage maladroit dans les vieux films de kung-fu ? Ou la synchronisation labiale discordante des premiers films d’animation ? Ces jours sont en passe de disparaître rapidement et, grâce à l’essor de la technologie de synchronisation labiale basée sur l’IA, ils pourraient être à jamais derrière nous. Depuis avril 2023, le nombre de solutions et le volume de Recherches par mots-clés « AI lip-sync » a connu une croissance spectaculaire, venant de nulle part pour devenir l’une des tendances critiques du IA générative.

Ce domaine de pointe révolutionne la façon dont nous créons et consommons du contenu vidéo, avec des implications dans tous les domaines, de la réalisation de films et d’animations à la vidéoconférence et aux jeux.

Pour approfondir cette technologie fascinante, j’ai parlé avec Aleksandr Rezanov, un ingénieur en vision par ordinateur et en apprentissage automatique qui a auparavant dirigé le développement de la synchronisation labiale chez Rask AI et travaille actuellement chez IA Higgsfield à Londres. L’expertise de Rezanov offre un aperçu du fonctionnement complexe, des défis et du potentiel de transformation de la synchronisation labiale de l’IA.

Déconstruire la magie : comment fonctionne la synchronisation labiale de l’IA

« La plupart des architectures lip-sync fonctionnent sur un principe inspiré du papier ‘Wav2Lip : synchronisation labiale précise des vidéos dans la nature‘», m’a dit Rezanov. Ces systèmes utilisent une interaction complexe de réseaux neuronaux pour analyser l’entrée audio et générer les mouvements des lèvres correspondants. « Les données d’entrée comprennent une image dans laquelle nous souhaitons modifier la bouche, une image de référence montrant à quoi ressemble la personne et une entrée audio », a déclaré Rezanov.

Trois encodeurs distincts traitent ces données, créant des représentations compressées qui interagissent pour générer des formes de bouche réalistes. « La tâche de synchronisation labiale consiste à ‘dessiner’ une bouche là où elle est masquée (ou à ajuster une bouche existante), en fonction de l’apparence de la personne et de ce qu’elle disait à ce moment-là », a expliqué Rezanov.

Ce processus implique des modifications complexes, notamment l’utilisation de plusieurs images de référence pour capturer l’apparence d’une personne, l’utilisation de différents modèles de visage et différentes méthodes d’encodage audio.

« Essentiellement, les études sur la synchronisation labiale explorent les blocs de ce cadre qui peuvent être remplacés tout en gardant les principes de base cohérents : trois encodeurs, une interaction interne et un décodeur », a déclaré Rezanov.

Développer la technologie de synchronisation labiale de l’IA est un véritable défi. L’équipe de Rezanov chez Rask AI a été confrontée à de nombreux défis, notamment pour obtenir une qualité visuelle et une synchronisation audio-vidéo précise.

« Pour résoudre ce problème, nous avons appliqué plusieurs stratégies », a déclaré Rezanov. « Cela impliquait de modifier l’architecture du réseau neuronal, d’affiner et d’améliorer la procédure de formation et d’améliorer l’ensemble de données. »

Rask a également été le pionnier de la prise en charge de la synchronisation labiale pour les vidéos avec plusieurs locuteurs, une tâche complexe nécessitant la diarisation des locuteurs (identification et segmentation automatiques d’un enregistrement audio en segments vocaux distincts) et la détection active du locuteur.

Au-delà du divertissement : les applications en expansion de la synchronisation labiale de l’IA

Les implications de la synchronisation labiale de l’IA s’étendent bien au-delà du divertissement. « La technologie de synchronisation labiale a un large éventail d’applications », a déclaré Rezanov. « En utilisant une synchronisation labiale de haute qualité, nous pouvons éliminer le fossé audiovisuel lors du visionnage de contenu traduit, permettant ainsi aux téléspectateurs de rester immergés sans être distraits par des discordances entre la parole et la vidéo. »

Cela a des implications significatives en termes d’accessibilité, rendant le contenu plus attrayant pour les téléspectateurs qui comptent sur les sous-titres ou le doublage. De plus, la synchronisation labiale de l’IA peut rationaliser la production de contenu, réduisant ainsi le besoin de prises multiples et réduisant les coûts.

« Cette technologie pourrait rationaliser et réduire le coût de production de contenu, économisant ainsi des ressources importantes aux studios de jeux tout en améliorant probablement la qualité de l’animation », a déclaré Rezanov.

La quête de la perfection : l’avenir de la synchronisation labiale par l’IA

Alors que la synchronisation labiale IA a fait des progrès remarquables, la quête d’une synchronisation labiale parfaite et indiscernable se poursuit.

« Le plus grand défi de la technologie de synchronisation labiale est que les humains, en tant qu’espèce, sont exceptionnellement doués pour reconnaître les visages », a déclaré Rezanov. « L’évolution nous a formés à cette tâche pendant des milliers d’années, ce qui explique les difficultés rencontrées pour générer quoi que ce soit en rapport avec les visages. »

Il décrit trois étapes dans le développement de la synchronisation labiale : parvenir à une synchronisation de base de la bouche avec l’audio, créer des mouvements naturels et fluides et enfin, capturer des détails fins comme les pores, les cheveux et les dents.

« Actuellement, le plus grand obstacle en matière de synchronisation labiale réside dans l’amélioration de ce niveau de détail », a déclaré Rezanov. « Les dents et la barbe restent particulièrement problématiques. » En tant que propriétaire de dents et de barbe, je peux attester de la déception (et parfois des résultats dignes de Dali qui font rire le ventre) que j’ai ressentie en testant certaines solutions de synchronisation labiale IA.

Malgré ces défis, Rezanov reste optimiste.

« À mon avis, nous nous rapprochons progressivement d’une synchronisation labiale vraiment impossible à distinguer », a déclaré Rezanov. « Mais qui sait quels nouveaux détails nous commencerons à remarquer une fois sur place ? »

De la synchronisation labiale à la manipulation du visage : la prochaine frontière

Le travail de Rezanov chez Higgsfield AI s’appuie sur son expertise en synchronisation labiale, en se concentrant sur des techniques plus larges de manipulation du visage.

« La génération vidéo est un domaine immense et il est impossible d’en isoler un seul aspect », a déclaré Rezanov. « Dans l’entreprise, je m’occupe principalement de tâches liées à la manipulation du visage, ce qui correspond étroitement à mon expérience antérieure. »

Son objectif actuel consiste à optimiser les techniques d’échange de visage et à assurer la cohérence des personnages dans le contenu généré. Ce travail repousse les limites de la manipulation vidéo basée sur l’IA, ouvrant de nouvelles possibilités d’expression créative et d’innovation technologique.

À mesure que la technologie de synchronisation labiale de l’IA évolue, nous pouvons nous attendre à des expériences encore plus réalistes et immersives dans les domaines du cinéma, de l’animation, des jeux et au-delà. L’étrange vallée se rétrécit et un avenir d’humains numériques hyperréalistes est à notre portée.

Tags: HiggsfieldIAIA générativeRasquesynchronisation labiale

Related Posts

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

juin 3, 2026
Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

juin 3, 2026
Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

juin 3, 2026
OpenAI étend le Codex avec des plug-ins d’entreprise et une nouvelle fonctionnalité Sites

OpenAI étend le Codex avec des plug-ins d’entreprise et une nouvelle fonctionnalité Sites

juin 3, 2026
Meta corrige une faille d’IA qui a permis le rachat de comptes Instagram

Meta corrige une faille d’IA qui a permis le rachat de comptes Instagram

juin 2, 2026
Un package Codex populaire surpris en train d’exfiltrer les informations d’authentification

Un package Codex populaire surpris en train d’exfiltrer les informations d’authentification

juin 2, 2026

Recent Posts

  • Les règles de désinscription de la recherche Google AI déclenchent le lancement du navigateur Enviromates
  • Sony révèle God of War : Laufey pour PS5
  • Les chercheurs débloquent une amélioration 20 fois supérieure dans des expériences laser ultrarapides
  • Microsoft dévoile Surface RTX Spark Dev Box pour les charges de travail d’IA
  • Les nouvelles puces Core Ultra d’Intel seraient rares

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.