Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

J’ai testé CogVideoX, une autre IA open source de conversion de texte en vidéo

byKerem Gülen
septembre 5, 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Université de Tsinghua et IA Zhipu ont présenté CogVideoX en collaboration, un modèle texte-vidéo open source prêt à défier les poids lourds de l’IA comme Piste, Luma IAet Laboratoires PikaDétaillée dans une récente publication arXiv, cette innovation offre des capacités avancées de génération vidéo aux développeurs du monde entier.

CogVideoX : nouvel outil d’IA open source de conversion de texte en vidéo

« Nous présentons CogVideoX, des modèles de transformateurs de diffusion à grande échelle conçus pour générer des vidéos basées sur des invites textuelles. Pour modéliser efficacement les données vidéo, nous proposons d’utiliser un autoencodeur variationnel 3D (VAE) pour compresser les vidéos selon les dimensions spatiales et temporelles. Pour améliorer l’alignement texte-vidéo, nous proposons un transformateur expert avec le LayerNorm adaptatif expert pour faciliter la fusion profonde entre les deux modalités. En utilisant une technique d’entraînement progressive, CogVideoX est capable de produire des vidéos cohérentes et de longue durée caractérisées par des mouvements significatifs », explique le le papier lit.

L’Université Tsinghua est fortement impliquée dans la recherche sur l’IA, avec plusieurs projets remarquables à son actif.
Récemment, ils ont collaboré sur OpenVoice, une plate-forme de clonage vocal open source développée en collaboration avec le MIT et MonShellet ils ont maintenant introduit CogVideoX-5B, un modèle de conversion de texte en vidéo. Ils se sont également associés à Shengshu Technology pour lancer Vidu IAun outil conçu pour simplifier la création de vidéos à l’aide de l’IA.

CogVideoX peut créer des vidéos cohérentes et de haute qualité d’une durée maximale de six secondes à partir de simples invites de texte.

Le modèle phare, CogVideoX-5B, dispose de 5 milliards de paramètres et produit des vidéos à une résolution de 720 × 480 et 8 images par seconde. Même si ces spécifications ne rivalisent pas avec les derniers systèmes propriétaires, la véritable avancée réside dans l’approche open source de CogVideoX.

Les modèles open source révolutionnent le domaine par rallégeant leur poids de code et de modèle Pour le public, l’équipe de Tsinghua a effectivement démocratisé une technologie qui était autrefois le domaine de géants technologiques bien financés. Cette initiative devrait accélérer les progrès dans le domaine de la vidéo générée par l’IA en exploitant l’expertise collective de la communauté mondiale des développeurs.

Les chercheurs ont obtenu les résultats impressionnants de CogVideoX grâce à plusieurs innovations clés, notamment un Autoencodeur variationnel 3D pour une compression vidéo efficace et un « transformateur expert » conçu pour améliorer l’alignement texte-vidéo.

« Pour améliorer l’alignement entre les vidéos et les textes, nous proposons un transformateur expert avec LayerNorm adaptatif expert pour faciliter la fusion entre les deux modalités », explique l’article. Cette avancée permet une interprétation plus précise des invites de texte et une génération de vidéos plus précise.

Comment essayer CogVideoX ?

  • Commencez par vous rendre sur la plateforme HuggingFace où le Outil de génération de vidéo open source CogVideoX-5B est disponible pour les tests.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 1
  • Rédigez une invite descriptive pour la vidéo que vous souhaitez générer. Par exemple, nous avons utilisé :
Une scène de jardin paisible où un papillon vole gracieusement dans les airs, ses ailes vibrantes captant la lumière alors qu’il se pose doucement sur la main tendue d’un enfant. Les yeux de l’enfant s’écarquillent d’admiration, capturant la magie du moment alors que le papillon repose délicatement sur ses petits doigts. Autour d’eux, des fleurs en fleurs se balancent doucement dans la brise, tandis qu’un ruisseau lointain murmure doucement, ajoutant une sensation de calme à l’atmosphère sereine. La main de l’enfant reste stable, offrant un accueil chaleureux à la créature délicate, incarnant un lien entre l’innocence et les merveilles de la nature.
  • Une fois votre invite prête, cliquez sur le bouton pour générer la vidéoVous devrez patienter un instant pendant que l’outil traite votre demande et crée la vidéo en fonction de votre description.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 2
  • Une fois la vidéo générée, vous pouvez la télécharger directement depuis la plateforme. Cela vous permet de visualiser le résultat de votre invite et de voir avec quelle précision l’outil a interprété votre description.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 3
  • Regardez la vidéo. Même si le résultat n’est pas forcément époustouflant, il est important de noter que ces types d’outils s’améliorent rapidement. Tout comme nous l’avons vu avec l’évolution de ChatGPT, une avancée significative dans le domaine de la vidéo générée par l’IA est probablement à l’horizon.

J’ai essayé, même si ce n’est pas encore une innovation, ces outils apparaissent partout. Je m’attends à une avancée majeure prochainement, comme nous l’avons vu avec ChatGPT. pic.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 août 2024

Nous allons voir de plus en plus de deepfakes

Cependant, la large disponibilité d’une technologie aussi puissante n’est pas sans danger. Le risque d’utilisation abusive, notamment dans la création de deepfakes ou de contenus trompeurs, est un problème sérieux auquel la communauté de l’IA doit faire face. Les chercheurs eux-mêmes reconnaissent ces préoccupations éthiques et demandent instamment que la technologie soit utilisée de manière responsable.

Alors que la vidéo générée par l’IA devient de plus en plus accessible et avancée, nous nous aventurons en territoire inconnu dans la création de contenu numérique. Le lancement de CogVideoX pourrait représenter un moment clé, susceptible de redistribuer le pouvoir des grands acteurs du secteur vers un modèle de développement de l’IA plus ouvert et décentralisé.

Les effets réels de cette démocratisation restent encore incertains. Va-t-elle créer une nouvelle vague de créativité et d’innovation, ou va-t-elle aggraver les problèmes existants de désinformation et de manipulation numérique ?


Crédits de l’image en vedette : Kerem Gülen/Mi-parcours

Tags: En vedetteIAvidéo

Related Posts

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

Le robotaxis Waymo pourrait bénéficier de l’assistant embarqué Gemini AI

décembre 26, 2025
Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

Pourquoi NVIDIA abandonne Intel 18A pour ses puces IA de nouvelle génération

décembre 25, 2025
ChatGPT pour gagner en Claude "Compétences" fonctionnalité

ChatGPT pour gagner en Claude "Compétences" fonctionnalité

décembre 25, 2025
Le pape Léon XIV prépare un monument "Magnifica Humanitas" encyclique sur l’IA

Le pape Léon XIV prépare un monument "Magnifica Humanitas" encyclique sur l’IA

décembre 25, 2025
Google révèle "en forme de pilule" bouton pour les sessions Gemini persistantes

Google révèle "en forme de pilule" bouton pour les sessions Gemini persistantes

décembre 25, 2025
Amazon ajoute Angi, Expedia, Square et Yelp à Alexa+

Amazon ajoute Angi, Expedia, Square et Yelp à Alexa+

décembre 24, 2025

Recent Posts

  • La publicité de vacances Porsche 2025 devient virale car elle n’utilise absolument aucune IA
  • Le jeu en nuage Xbox arrive sur les modèles Amazon Fire TV
  • La violation de données Aflac a touché 22,65 millions de clients
  • La panne d’AWS perturbe Fortnite et Steam
  • Les scientifiques découvrent plus de 17 000 nouvelles espèces

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.