ByTedance, la société mère de Tiktok, a récemment lancé Omnihuman-1, un cadre de génération de vidéo AI sophistiqué qui peut créer des vidéos de haute qualité à partir d’une seule image couplée à un clip audio. Ce modèle combine la vidéo, l’audio et les capacités de synchronisation des lèvres presque parfaites.
ByTedance lance Omnihuman-1: un nouveau modèle de génération de vidéos AI
Omnihuman-1 est remarquable pour produire non seulement des vidéos photoréalistes mais aussi des dessins animés anthropomorphes, des objets animés et des poses complexes. Parallèlement à cela, ByTedance a introduit un autre modèle d’IA appelé Goku, qui atteint une qualité de texte à vidéo similaire avec une architecture compacte de 8 milliards de paramètres, ciblant spécifiquement le marché de la publicité.
Ces développements positionnent la byédance parmi les meilleurs joueurs du domaine de l’IA aux côtés des géants de la technologie chinoise comme Alibaba et Tencent. Ses avancées perturbent considérablement le paysage du contenu généré par l’IA par rapport à d’autres sociétés telles que Kling IA, étant donné la vaste bibliothèque de médias vidéo de Bytedance, qui est potentiellement la plus importante après Facebook.
Les vidéos de démonstration pour Omnihuman-1 présentent des résultats impressionnants de divers types d’entrée, avec un niveau de détail élevé et des problèmes minimaux. Contrairement aux technologies traditionnelles Deepfake qui se concentrent souvent uniquement sur les animations faciales, Omnihuman-1 englobe les animations du corps complet, imitant avec précision les gestes et les expressions. De plus, le modèle d’IA s’adapte bien aux différentes qualités d’image, créant un mouvement fluide quelle que soit l’entrée d’origine.
Spécifications techniques d’Omnihuman-1
Omnihuman-1 exploite un modèle de transformateur de diffusion pour générer un mouvement en prédisant les modèles de mouvement cadre par trame, entraînant des transitions et une dynamique corporelle réalistes. Formé sur un ensemble de données complet de 18 700 heures de séquences vidéo humaines, le modèle comprend un large éventail de mouvements et d’expressions. Notamment, sa stratégie de formation «omni conditions», qui intègre plusieurs signaux d’entrée tels que les références audio, texte et pose, améliore la précision des prédictions de mouvement.
Essayé Cogvideox, un autre texte open source-video AI
Malgré les progrès prometteurs de la génération de vidéos IA, les implications éthiques sont importantes. La technologie présente des risques tels que le potentiel d’une utilisation abusive profonde dans la génération de médias trompeurs, de vol d’identité et d’autres applications malveillantes. Par conséquent, Bytedance n’a pas encore publié Omnihuman-1 pour un usage public, probablement en raison de ces préoccupations. S’il devient accessible au public, de fortes garanties, notamment le filigrane numérique et le suivi de l’authenticité du contenu, seront probablement nécessaires pour atténuer les abus potentiels.
Crédit d’image en vedette: Claudio Schwarz / Unsplash