Vous vous souvenez du doublage maladroit dans les vieux films de kung-fu ? Ou la synchronisation labiale discordante des premiers films d’animation ? Ces jours sont en passe de disparaître rapidement et, grâce à l’essor de la technologie de synchronisation labiale basée sur l’IA, ils pourraient être à jamais derrière nous. Depuis avril 2023, le nombre de solutions et le volume de Recherches par mots-clés « AI lip-sync » a connu une croissance spectaculaire, venant de nulle part pour devenir l’une des tendances critiques du IA générative.
Ce domaine de pointe révolutionne la façon dont nous créons et consommons du contenu vidéo, avec des implications dans tous les domaines, de la réalisation de films et d’animations à la vidéoconférence et aux jeux.
Pour approfondir cette technologie fascinante, j’ai parlé avec Aleksandr Rezanov, un ingénieur en vision par ordinateur et en apprentissage automatique qui a auparavant dirigé le développement de la synchronisation labiale chez Rask AI et travaille actuellement chez IA Higgsfield à Londres. L’expertise de Rezanov offre un aperçu du fonctionnement complexe, des défis et du potentiel de transformation de la synchronisation labiale de l’IA.
Déconstruire la magie : comment fonctionne la synchronisation labiale de l’IA
« La plupart des architectures lip-sync fonctionnent sur un principe inspiré du papier ‘Wav2Lip : synchronisation labiale précise des vidéos dans la nature‘», m’a dit Rezanov. Ces systèmes utilisent une interaction complexe de réseaux neuronaux pour analyser l’entrée audio et générer les mouvements des lèvres correspondants. « Les données d’entrée comprennent une image dans laquelle nous souhaitons modifier la bouche, une image de référence montrant à quoi ressemble la personne et une entrée audio », a déclaré Rezanov.
Trois encodeurs distincts traitent ces données, créant des représentations compressées qui interagissent pour générer des formes de bouche réalistes. « La tâche de synchronisation labiale consiste à ‘dessiner’ une bouche là où elle est masquée (ou à ajuster une bouche existante), en fonction de l’apparence de la personne et de ce qu’elle disait à ce moment-là », a expliqué Rezanov.
Ce processus implique des modifications complexes, notamment l’utilisation de plusieurs images de référence pour capturer l’apparence d’une personne, l’utilisation de différents modèles de visage et différentes méthodes d’encodage audio.
« Essentiellement, les études sur la synchronisation labiale explorent les blocs de ce cadre qui peuvent être remplacés tout en gardant les principes de base cohérents : trois encodeurs, une interaction interne et un décodeur », a déclaré Rezanov.
Développer la technologie de synchronisation labiale de l’IA est un véritable défi. L’équipe de Rezanov chez Rask AI a été confrontée à de nombreux défis, notamment pour obtenir une qualité visuelle et une synchronisation audio-vidéo précise.
« Pour résoudre ce problème, nous avons appliqué plusieurs stratégies », a déclaré Rezanov. « Cela impliquait de modifier l’architecture du réseau neuronal, d’affiner et d’améliorer la procédure de formation et d’améliorer l’ensemble de données. »
Rask a également été le pionnier de la prise en charge de la synchronisation labiale pour les vidéos avec plusieurs locuteurs, une tâche complexe nécessitant la diarisation des locuteurs (identification et segmentation automatiques d’un enregistrement audio en segments vocaux distincts) et la détection active du locuteur.
Au-delà du divertissement : les applications en expansion de la synchronisation labiale de l’IA
Les implications de la synchronisation labiale de l’IA s’étendent bien au-delà du divertissement. « La technologie de synchronisation labiale a un large éventail d’applications », a déclaré Rezanov. « En utilisant une synchronisation labiale de haute qualité, nous pouvons éliminer le fossé audiovisuel lors du visionnage de contenu traduit, permettant ainsi aux téléspectateurs de rester immergés sans être distraits par des discordances entre la parole et la vidéo. »
Cela a des implications significatives en termes d’accessibilité, rendant le contenu plus attrayant pour les téléspectateurs qui comptent sur les sous-titres ou le doublage. De plus, la synchronisation labiale de l’IA peut rationaliser la production de contenu, réduisant ainsi le besoin de prises multiples et réduisant les coûts.
« Cette technologie pourrait rationaliser et réduire le coût de production de contenu, économisant ainsi des ressources importantes aux studios de jeux tout en améliorant probablement la qualité de l’animation », a déclaré Rezanov.
La quête de la perfection : l’avenir de la synchronisation labiale par l’IA
Alors que la synchronisation labiale IA a fait des progrès remarquables, la quête d’une synchronisation labiale parfaite et indiscernable se poursuit.
« Le plus grand défi de la technologie de synchronisation labiale est que les humains, en tant qu’espèce, sont exceptionnellement doués pour reconnaître les visages », a déclaré Rezanov. « L’évolution nous a formés à cette tâche pendant des milliers d’années, ce qui explique les difficultés rencontrées pour générer quoi que ce soit en rapport avec les visages. »
Il décrit trois étapes dans le développement de la synchronisation labiale : parvenir à une synchronisation de base de la bouche avec l’audio, créer des mouvements naturels et fluides et enfin, capturer des détails fins comme les pores, les cheveux et les dents.
« Actuellement, le plus grand obstacle en matière de synchronisation labiale réside dans l’amélioration de ce niveau de détail », a déclaré Rezanov. « Les dents et la barbe restent particulièrement problématiques. » En tant que propriétaire de dents et de barbe, je peux attester de la déception (et parfois des résultats dignes de Dali qui font rire le ventre) que j’ai ressentie en testant certaines solutions de synchronisation labiale IA.
Malgré ces défis, Rezanov reste optimiste.
« À mon avis, nous nous rapprochons progressivement d’une synchronisation labiale vraiment impossible à distinguer », a déclaré Rezanov. « Mais qui sait quels nouveaux détails nous commencerons à remarquer une fois sur place ? »
De la synchronisation labiale à la manipulation du visage : la prochaine frontière
Le travail de Rezanov chez Higgsfield AI s’appuie sur son expertise en synchronisation labiale, en se concentrant sur des techniques plus larges de manipulation du visage.
« La génération vidéo est un domaine immense et il est impossible d’en isoler un seul aspect », a déclaré Rezanov. « Dans l’entreprise, je m’occupe principalement de tâches liées à la manipulation du visage, ce qui correspond étroitement à mon expérience antérieure. »
Son objectif actuel consiste à optimiser les techniques d’échange de visage et à assurer la cohérence des personnages dans le contenu généré. Ce travail repousse les limites de la manipulation vidéo basée sur l’IA, ouvrant de nouvelles possibilités d’expression créative et d’innovation technologique.
À mesure que la technologie de synchronisation labiale de l’IA évolue, nous pouvons nous attendre à des expériences encore plus réalistes et immersives dans les domaines du cinéma, de l’animation, des jeux et au-delà. L’étrange vallée se rétrécit et un avenir d’humains numériques hyperréalistes est à notre portée.