Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

J’ai testé CogVideoX, une autre IA open source de conversion de texte en vidéo

byKerem Gülen
septembre 5, 2024
in Artificial Intelligence
Home Artificial Intelligence

Université de Tsinghua et IA Zhipu ont présenté CogVideoX en collaboration, un modèle texte-vidéo open source prêt à défier les poids lourds de l’IA comme Piste, Luma IAet Laboratoires PikaDétaillée dans une récente publication arXiv, cette innovation offre des capacités avancées de génération vidéo aux développeurs du monde entier.

CogVideoX : nouvel outil d’IA open source de conversion de texte en vidéo

« Nous présentons CogVideoX, des modèles de transformateurs de diffusion à grande échelle conçus pour générer des vidéos basées sur des invites textuelles. Pour modéliser efficacement les données vidéo, nous proposons d’utiliser un autoencodeur variationnel 3D (VAE) pour compresser les vidéos selon les dimensions spatiales et temporelles. Pour améliorer l’alignement texte-vidéo, nous proposons un transformateur expert avec le LayerNorm adaptatif expert pour faciliter la fusion profonde entre les deux modalités. En utilisant une technique d’entraînement progressive, CogVideoX est capable de produire des vidéos cohérentes et de longue durée caractérisées par des mouvements significatifs », explique le le papier lit.

L’Université Tsinghua est fortement impliquée dans la recherche sur l’IA, avec plusieurs projets remarquables à son actif.
Récemment, ils ont collaboré sur OpenVoice, une plate-forme de clonage vocal open source développée en collaboration avec le MIT et MonShellet ils ont maintenant introduit CogVideoX-5B, un modèle de conversion de texte en vidéo. Ils se sont également associés à Shengshu Technology pour lancer Vidu IAun outil conçu pour simplifier la création de vidéos à l’aide de l’IA.

CogVideoX peut créer des vidéos cohérentes et de haute qualité d’une durée maximale de six secondes à partir de simples invites de texte.

Le modèle phare, CogVideoX-5B, dispose de 5 milliards de paramètres et produit des vidéos à une résolution de 720 × 480 et 8 images par seconde. Même si ces spécifications ne rivalisent pas avec les derniers systèmes propriétaires, la véritable avancée réside dans l’approche open source de CogVideoX.

Les modèles open source révolutionnent le domaine par rallégeant leur poids de code et de modèle Pour le public, l’équipe de Tsinghua a effectivement démocratisé une technologie qui était autrefois le domaine de géants technologiques bien financés. Cette initiative devrait accélérer les progrès dans le domaine de la vidéo générée par l’IA en exploitant l’expertise collective de la communauté mondiale des développeurs.

Les chercheurs ont obtenu les résultats impressionnants de CogVideoX grâce à plusieurs innovations clés, notamment un Autoencodeur variationnel 3D pour une compression vidéo efficace et un « transformateur expert » conçu pour améliorer l’alignement texte-vidéo.

« Pour améliorer l’alignement entre les vidéos et les textes, nous proposons un transformateur expert avec LayerNorm adaptatif expert pour faciliter la fusion entre les deux modalités », explique l’article. Cette avancée permet une interprétation plus précise des invites de texte et une génération de vidéos plus précise.

Comment essayer CogVideoX ?

  • Commencez par vous rendre sur la plateforme HuggingFace où le Outil de génération de vidéo open source CogVideoX-5B est disponible pour les tests.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 1
  • Rédigez une invite descriptive pour la vidéo que vous souhaitez générer. Par exemple, nous avons utilisé :
Une scène de jardin paisible où un papillon vole gracieusement dans les airs, ses ailes vibrantes captant la lumière alors qu’il se pose doucement sur la main tendue d’un enfant. Les yeux de l’enfant s’écarquillent d’admiration, capturant la magie du moment alors que le papillon repose délicatement sur ses petits doigts. Autour d’eux, des fleurs en fleurs se balancent doucement dans la brise, tandis qu’un ruisseau lointain murmure doucement, ajoutant une sensation de calme à l’atmosphère sereine. La main de l’enfant reste stable, offrant un accueil chaleureux à la créature délicate, incarnant un lien entre l’innocence et les merveilles de la nature.
  • Une fois votre invite prête, cliquez sur le bouton pour générer la vidéoVous devrez patienter un instant pendant que l’outil traite votre demande et crée la vidéo en fonction de votre description.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 2
  • Une fois la vidéo générée, vous pouvez la télécharger directement depuis la plateforme. Cela vous permet de visualiser le résultat de votre invite et de voir avec quelle précision l’outil a interprété votre description.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 3
  • Regardez la vidéo. Même si le résultat n’est pas forcément époustouflant, il est important de noter que ces types d’outils s’améliorent rapidement. Tout comme nous l’avons vu avec l’évolution de ChatGPT, une avancée significative dans le domaine de la vidéo générée par l’IA est probablement à l’horizon.

J’ai essayé, même si ce n’est pas encore une innovation, ces outils apparaissent partout. Je m’attends à une avancée majeure prochainement, comme nous l’avons vu avec ChatGPT. pic.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 août 2024

Nous allons voir de plus en plus de deepfakes

Cependant, la large disponibilité d’une technologie aussi puissante n’est pas sans danger. Le risque d’utilisation abusive, notamment dans la création de deepfakes ou de contenus trompeurs, est un problème sérieux auquel la communauté de l’IA doit faire face. Les chercheurs eux-mêmes reconnaissent ces préoccupations éthiques et demandent instamment que la technologie soit utilisée de manière responsable.

Alors que la vidéo générée par l’IA devient de plus en plus accessible et avancée, nous nous aventurons en territoire inconnu dans la création de contenu numérique. Le lancement de CogVideoX pourrait représenter un moment clé, susceptible de redistribuer le pouvoir des grands acteurs du secteur vers un modèle de développement de l’IA plus ouvert et décentralisé.

Les effets réels de cette démocratisation restent encore incertains. Va-t-elle créer une nouvelle vague de créativité et d’innovation, ou va-t-elle aggraver les problèmes existants de désinformation et de manipulation numérique ?


Crédits de l’image en vedette : Kerem Gülen/Mi-parcours

Tags: En vedetteIAvidéo

Related Posts

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

mai 15, 2025
Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

mai 15, 2025
YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

mai 15, 2025
Le PDG de SoundCloud admet que les termes AI n’étaient pas assez clairs, il émet un nouvel engagement

Le PDG de SoundCloud admet que les termes AI n’étaient pas assez clairs, il émet un nouvel engagement

mai 15, 2025
Prêt pour un chatppt qui vous connaît vraiment?

Prêt pour un chatppt qui vous connaît vraiment?

mai 14, 2025
Lightricks dévoile le modèle vidéo LTX 13B pour la génération de vidéo AI HQ

Lightricks dévoile le modèle vidéo LTX 13B pour la génération de vidéo AI HQ

mai 14, 2025

Recent Posts

  • L’impact des tissus intelligents sur les performances des vêtements tactiques
  • Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars
  • Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction
  • Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité
  • Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.