Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

J’ai testé CogVideoX, une autre IA open source de conversion de texte en vidéo

byKerem Gülen
septembre 5, 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Université de Tsinghua et IA Zhipu ont présenté CogVideoX en collaboration, un modèle texte-vidéo open source prêt à défier les poids lourds de l’IA comme Piste, Luma IAet Laboratoires PikaDétaillée dans une récente publication arXiv, cette innovation offre des capacités avancées de génération vidéo aux développeurs du monde entier.

CogVideoX : nouvel outil d’IA open source de conversion de texte en vidéo

« Nous présentons CogVideoX, des modèles de transformateurs de diffusion à grande échelle conçus pour générer des vidéos basées sur des invites textuelles. Pour modéliser efficacement les données vidéo, nous proposons d’utiliser un autoencodeur variationnel 3D (VAE) pour compresser les vidéos selon les dimensions spatiales et temporelles. Pour améliorer l’alignement texte-vidéo, nous proposons un transformateur expert avec le LayerNorm adaptatif expert pour faciliter la fusion profonde entre les deux modalités. En utilisant une technique d’entraînement progressive, CogVideoX est capable de produire des vidéos cohérentes et de longue durée caractérisées par des mouvements significatifs », explique le le papier lit.

L’Université Tsinghua est fortement impliquée dans la recherche sur l’IA, avec plusieurs projets remarquables à son actif.
Récemment, ils ont collaboré sur OpenVoice, une plate-forme de clonage vocal open source développée en collaboration avec le MIT et MonShellet ils ont maintenant introduit CogVideoX-5B, un modèle de conversion de texte en vidéo. Ils se sont également associés à Shengshu Technology pour lancer Vidu IAun outil conçu pour simplifier la création de vidéos à l’aide de l’IA.

CogVideoX peut créer des vidéos cohérentes et de haute qualité d’une durée maximale de six secondes à partir de simples invites de texte.

Le modèle phare, CogVideoX-5B, dispose de 5 milliards de paramètres et produit des vidéos à une résolution de 720 × 480 et 8 images par seconde. Même si ces spécifications ne rivalisent pas avec les derniers systèmes propriétaires, la véritable avancée réside dans l’approche open source de CogVideoX.

Les modèles open source révolutionnent le domaine par rallégeant leur poids de code et de modèle Pour le public, l’équipe de Tsinghua a effectivement démocratisé une technologie qui était autrefois le domaine de géants technologiques bien financés. Cette initiative devrait accélérer les progrès dans le domaine de la vidéo générée par l’IA en exploitant l’expertise collective de la communauté mondiale des développeurs.

Les chercheurs ont obtenu les résultats impressionnants de CogVideoX grâce à plusieurs innovations clés, notamment un Autoencodeur variationnel 3D pour une compression vidéo efficace et un « transformateur expert » conçu pour améliorer l’alignement texte-vidéo.

« Pour améliorer l’alignement entre les vidéos et les textes, nous proposons un transformateur expert avec LayerNorm adaptatif expert pour faciliter la fusion entre les deux modalités », explique l’article. Cette avancée permet une interprétation plus précise des invites de texte et une génération de vidéos plus précise.

Comment essayer CogVideoX ?

  • Commencez par vous rendre sur la plateforme HuggingFace où le Outil de génération de vidéo open source CogVideoX-5B est disponible pour les tests.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 1
  • Rédigez une invite descriptive pour la vidéo que vous souhaitez générer. Par exemple, nous avons utilisé :
Une scène de jardin paisible où un papillon vole gracieusement dans les airs, ses ailes vibrantes captant la lumière alors qu’il se pose doucement sur la main tendue d’un enfant. Les yeux de l’enfant s’écarquillent d’admiration, capturant la magie du moment alors que le papillon repose délicatement sur ses petits doigts. Autour d’eux, des fleurs en fleurs se balancent doucement dans la brise, tandis qu’un ruisseau lointain murmure doucement, ajoutant une sensation de calme à l’atmosphère sereine. La main de l’enfant reste stable, offrant un accueil chaleureux à la créature délicate, incarnant un lien entre l’innocence et les merveilles de la nature.
  • Une fois votre invite prête, cliquez sur le bouton pour générer la vidéoVous devrez patienter un instant pendant que l’outil traite votre demande et crée la vidéo en fonction de votre description.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 2
  • Une fois la vidéo générée, vous pouvez la télécharger directement depuis la plateforme. Cela vous permet de visualiser le résultat de votre invite et de voir avec quelle précision l’outil a interprété votre description.
CogVideoX est une autre IA open source de conversion de texte en vidéo
Étape 3
  • Regardez la vidéo. Même si le résultat n’est pas forcément époustouflant, il est important de noter que ces types d’outils s’améliorent rapidement. Tout comme nous l’avons vu avec l’évolution de ChatGPT, une avancée significative dans le domaine de la vidéo générée par l’IA est probablement à l’horizon.

J’ai essayé, même si ce n’est pas encore une innovation, ces outils apparaissent partout. Je m’attends à une avancée majeure prochainement, comme nous l’avons vu avec ChatGPT. pic.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 août 2024

Nous allons voir de plus en plus de deepfakes

Cependant, la large disponibilité d’une technologie aussi puissante n’est pas sans danger. Le risque d’utilisation abusive, notamment dans la création de deepfakes ou de contenus trompeurs, est un problème sérieux auquel la communauté de l’IA doit faire face. Les chercheurs eux-mêmes reconnaissent ces préoccupations éthiques et demandent instamment que la technologie soit utilisée de manière responsable.

Alors que la vidéo générée par l’IA devient de plus en plus accessible et avancée, nous nous aventurons en territoire inconnu dans la création de contenu numérique. Le lancement de CogVideoX pourrait représenter un moment clé, susceptible de redistribuer le pouvoir des grands acteurs du secteur vers un modèle de développement de l’IA plus ouvert et décentralisé.

Les effets réels de cette démocratisation restent encore incertains. Va-t-elle créer une nouvelle vague de créativité et d’innovation, ou va-t-elle aggraver les problèmes existants de désinformation et de manipulation numérique ?


Crédits de l’image en vedette : Kerem Gülen/Mi-parcours

Tags: En vedetteIAvidéo

Related Posts

OpenAI unifie les équipes pour créer un appareil audio avec Jony Ive

OpenAI unifie les équipes pour créer un appareil audio avec Jony Ive

janvier 2, 2026
OpenAI explore la priorisation des publicités sponsorisées dans les réponses ChatGPT

OpenAI explore la priorisation des publicités sponsorisées dans les réponses ChatGPT

janvier 2, 2026
Samsung Bixby obtient les pouvoirs de recherche de Perplexity AI dans une nouvelle mise à jour

Samsung Bixby obtient les pouvoirs de recherche de Perplexity AI dans une nouvelle mise à jour

décembre 29, 2025
Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet

décembre 26, 2025
ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

ChatGPT évolue vers une suite bureautique avec de nouveaux blocs de formatage

décembre 26, 2025
Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

Google NotebookLM présente "Mode conférence" pour un apprentissage de l’IA de 30 minutes

décembre 26, 2025

Recent Posts

  • OpenAI unifie les équipes pour créer un appareil audio avec Jony Ive
  • Goldman Sachs et les banques européennes ciblent les rôles de back-office pour l'IA
  • Nvidia acquiert une participation de 5 milliards de dollars dans Intel pour une alliance stratégique
  • Amazon bloque 1 800 employés nord-coréens du travail à distance
  • Nvidia s'efforce de combler le déficit de 2 millions de puces des géants chinois de la technologie

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.