Les avatars de l’IA, ou « têtes parlantes », ont marqué une nouvelle étape dans la façon dont nous abordons et comprenons l’engagement numérique. Il n’y a pas si longtemps, transformer une seule photo et un clip audio en un ressemblance réaliste et parlante semblait impossible – le mieux que nous puissions obtenir était un résultat de « vallée étrange », certainement inadapté à un usage externe.
Aujourd’hui, la situation est bien différente. Au cœur d’outils comme Synthesia, ce processus de création d’avatars IA commence par la création par l’IA d’une « identité numérique » à partir d’une image, puis en l’animant pour synchroniser les mouvements du visage avec l’audio — de sorte que l’avatar « parle » pour l’utilisateur lors d’une présentation, d’une bobine, ou un événement. Ces progrès le doivent à des méthodes de pointe comme GANconnu pour sa sortie visuelle rapide et de haute qualité, et ses modèles de diffusion, appréciés pour leur richesse de détails, bien que plus lents. Synthesia, D-ID et Hume AI font partie des entreprises qui font progresser ces outils et prennent les devants pour rendre cette technologie aussi adaptée que possible aux demandes actuelles.
Pourtant, le véritable réalisme est encore hors de portée. Les réseaux de neurones traitent les détails visuels différemment des humains, négligeant souvent des signaux subtils, comme l’alignement précis des dents et de la pilosité faciale, qui façonnent la façon dont les gens perçoivent naturellement les visages. Nous en reparlerons plus tard.
Cet article parle du fonctionnement interne de la technologie et des défis auxquels les développeurs sont confrontés lorsqu’ils tentent de faire ressembler les avatars de l’IA à nos visages familiers. Dans quelle mesure peuvent-ils devenir réalistes ?
Comment fonctionne le processus de génération d’avatar IA
La création d’un avatar IA commence par le téléchargement par l’utilisateur d’une photo ou d’une vidéo. Cette entrée est traitée via un « extracteur d’identité » – un réseau neuronal formé pour identifier et coder l’apparence physique d’une personne. Ce modèle extrait les caractéristiques clés du visage et les convertit en une « identité numérique », qui peut être utilisée pour animer l’avatar de manière réaliste. À partir de cette représentation, les développeurs peuvent contrôler les mouvements via un signal « pilote », généralement audio ou vidéo supplémentaire, qui dicte la manière dont l’avatar doit bouger et parler.
Le signal du pilote est vital dans le processus d’animation. Il détermine à la fois la synchronisation labiale avec l’audio et les expressions faciales plus larges. Par exemple, dans un avatar parlant, les signaux audio influencent la forme et le mouvement de la bouche pour correspondre à la parole. Parfois, des points clés du visage (par exemple, les coins des yeux et de la bouche) sont utilisés pour guider le mouvement avec précision, tandis que dans d’autres cas, la pose entière de l’avatar est modifiée pour correspondre au signal du conducteur. Pour garantir que l’expression soit naturelle, le réseau neuronal peut utiliser des techniques telles que le « warping », qui remodèle en douceur les caractéristiques de l’avatar en fonction des signaux d’entrée ci-dessus.
Comme dernière étape, un processus de décodage traduit cette identité numérique modifiée sous une forme visuelle en générant des images individuelles et en les assemblant dans une vidéo transparente. Les réseaux neuronaux ne fonctionnent généralement pas de manière réversible, de sorte que le décodage nécessite une formation distincte pour convertir avec précision la représentation numérique animée en images continues et réalistes. Le résultat est un avatar qui reflète fidèlement les expressions et les mouvements humains, mais qui reste néanmoins limité par les limites de la capacité actuelle de l’IA à percevoir les détails fins du visage.
GAN, modèles de diffusion et méthodes basées sur la 3D : les trois piliers de la génération d’avatars
Les technologies de base permettant cette transformation progressent continuellement pour capturer avec plus de précision les expressions humaines, en s’appuyant étape par étape sur le processus de génération d’avatars. Trois approches principales sont actuellement à l’origine du progrès, et chacune d’entre elles présente des avantages et des limites particuliers :
Le premier, GAN (Generative Adversarial Networks), utilise deux réseaux de neurones en tandem – un générateur et un discriminateur – pour créer des images très réalistes. Cette approche permet une génération d’images rapide et de haute qualité, ce qui la rend adaptée aux applications en temps réel ayant un besoin évident d’avatars fluides et réactifs. Cependant, même si les GAN excellent en termes de vitesse et de qualité visuelle, ils peuvent être difficiles à contrôler avec précision. Cela peut limiter leur efficacité dans les cas nécessitant une personnalisation détaillée.
Modèles de diffusion sont un autre outil puissant. Ils transforment progressivement le bruit en une image de haute qualité grâce à des étapes répétées. Connus pour générer des images détaillées et hautement contrôlables, les modèles de diffusion sont plus lents et nécessitent une puissance de calcul importante. Ils sont donc idéaux pour le rendu hors ligne et l’utilisation en temps réel – pas tellement. La force de ce modèle réside dans la production de détails nuancés et photoréalistes, mais à un rythme plus lent.
Enfin, Méthodes basées sur la 3D comme les champs de radiance neuronale (NeRF) et les éclaboussures gaussiennes, construisent une représentation visuelle en mappant les informations spatiales et chromatiques dans une scène 3D. Ces méthodes diffèrent légèrement, le Splatting étant plus rapide et les NeRF fonctionnant à un rythme plus lent. Les approches basées sur la 3D sont les mieux adaptées aux environnements de jeu ou interactifs. Cependant, les NeRF et les éclaboussures gaussiennes peuvent manquer de réalisme visuel, produisant actuellement un aspect qui peut paraître artificiel dans des scénarios exigeant une ressemblance humaine.
Chaque technologie présente un équilibre entre vitesse, qualité et contrôle le mieux adapté aux différentes applications. Les GAN sont largement utilisés pour les applications en temps réel en raison de leur combinaison de vitesse et de qualité visuelle, tandis que les modèles de diffusion sont préférés dans des contextes « hors ligne », où le rendu ne s’effectue pas en temps réel, ce qui permet des calculs plus intensifs pour obtenir des détails plus fins. Les méthodes 3D continuent d’évoluer pour répondre aux besoins de haute performance, mais manquent actuellement de la précision visuelle réaliste requise pour les représentations de type humain.
Ces technologies résument assez bien les évolutions et les défis actuels dans le domaine. La recherche continue vise à fusionner leurs forces pour obtenir des résultats plus réalistes, mais pour l’instant, c’est à cela que nous avons affaire.
Le défi « Dents et barbes » d’AI Avatar
Construire des avatars IA réalistes commence par la collecte de données d’entraînement de haute qualité – une tâche complexe en soi – mais un aspect moins évident et tout aussi difficile consiste à capturer de petits détails qui définissent l’humain comme dents et barbes. Ces éléments sont notoirement difficiles à modéliser avec précision, en partie à cause du nombre limité de données de formation disponibles. Par exemple, les images détaillées des dents, en particulier des dents inférieures, sont rares dans les ensembles de données classiques : elles sont souvent cachées dans la parole naturelle. Les modèles ont du mal à reconstruire des structures dentaires réalistes sans exemples suffisants, ce qui conduit souvent à des apparences déformées ou peu naturelles, telles qu’un « effondrement » ou un placement étrange.
Les barbes ajoutent un niveau de complexité similaire. Placées près de la bouche, les barbes se déplacent selon les mouvements du visage et changent sous différents éclairages, ce qui rend tout défaut immédiatement perceptible. Lorsqu’elle n’est pas modélisée avec précision, une barbe peut apparaître statique, floue ou texturée de manière anormale, ce qui nuit au réalisme global de l’avatar.
L’autre facteur qui complique ces détails est la perception du réseau neuronal. Les humains se concentrent intuitivement sur les nuances du visage, comme les dents et la pilosité faciale, pour identifier les individus, tandis que les modèles neuronaux répartissent l’attention sur l’ensemble du visage, contournant souvent ces éléments plus petits mais clés. Pour le modèle, les dents et la barbe sont moins importantes ; pour les humains, ce sont des marqueurs d’identité essentiels. Ce problème ne peut être surmonté que par un réglage approfondi et un recyclage, exigeant souvent autant d’efforts que le perfectionnement de la structure globale du visage.
Nous pouvons maintenant voir un Limite fondamentale : même si ces modèles progressent vers le réalisme, ils restent tout juste en deçà de capturer la subtilité de la perception humaine.
Les progrès récents dans la technologie des avatars IA ont rapproché plus que jamais les expressions d’apparence naturelle de la réalité. Les GAN, les modèles de diffusion et les approches 3D émergentes ont complètement affiné la génération des « têtes parlantes », et chaque approche offre une perspective et une boîte à outils uniques pour faire d’une idée autrefois futuriste une réalité.
Les GAN offrent la vitesse nécessaire aux applications en temps réel ; les modèles de diffusion contribuent à un contrôle nuancé, bien que plus lent. Des techniques comme Éclaboussures gaussiennes en 3D apportent de l’efficacité, parfois au détriment de la fidélité visuelle.
Malgré ces améliorations, la technologie a encore un long chemin à parcourir en matière de réalisme. Peu importe à quel point votre modèle est affiné, de temps en temps, vous rencontrerez probablement une dentition légèrement étrange ou un placement de poils du visage bizarre. Mais à mesure que les données disponibles de haute qualité augmentent avec le temps, les réseaux de neurones développeront la capacité de montrer une cohérence dans la manière dont ils représentent les micro-traits humains innés. Ce qui fait partie intégrante de notre perception n’est qu’un paramètre pour les modèles d’IA.
Cet écart met en évidence une lutte permanente : les progrès technologiques nous font avancer, mais l’objectif de créer des avatars véritablement réalistes reste insaisissable, tout comme le paradoxe d’Achille et de la tortue : peu importe à quel point nous nous rapprochons, la perfection reste hors de portée.