Stabilité de l’IA récemment dévoilé sa dernière innovation, Stable Video Diffusion (SVD), un outil d’IA révolutionnaire qui transforme les images statiques en courtes vidéos dynamiques. Cet utilitaire de recherche gratuit, disponible en aperçu à pondération ouverte, fonctionne sur deux modèles d’IA utilisant la technique d’image en vidéo. Remarquablement, SVD fonctionne efficacement sur les machines locales équipées de GPU Nvidia. Cette version marque une étape importante dans le domaine de la génération vidéo assistée par l’IA, même si ses résultats montrent actuellement un large spectre d’efficacité.
Aujourd’hui, nous publions Stable Video Diffusion, notre premier modèle de base pour la vidéo générative basé sur le modèle d’image Stable Diffusion. Désormais disponible en aperçu de recherche, ce modèle vidéo d’IA générative de pointe représente une étape importante dans notre parcours vers la création de modèles pour chacun, quel que soit son type.
-Stabilité IA
Qu’est-ce que la diffusion vidéo stable, ou SVD ?
Stable Video Diffusion (SVD), une entreprise de Stability AI, constitue une étape ambitieuse dans le domaine de la synthèse vidéo IA. Cette innovation fait suite au lancement réussi de Stable Diffusion l’année dernière, un modèle de synthèse d’images à poids ouverts qui a lancé le domaine de la synthèse d’images ouverte. Il a favorisé une solide communauté de passionnés qui ont depuis étendu la technologie avec leurs personnalisations uniques. Désormais, Stability AI vise à reproduire ce succès dans la synthèse vidéo, bien qu’il s’agisse d’une technologie encore à ses débuts.
Actuellement, Stable Video Diffusion comprend deux modèles distincts. Le premier modèle, connu simplement sous le nom de « SVD », est capable de convertir des images en vidéos d’une longueur maximale de 14 images. Le second, « SVD-XT », étend cette capacité à 25 images. Ces modèles offrent une polyvalence de fonctionnement, fonctionnant à des vitesses allant de 3 à 30 images par seconde. Ils génèrent de courts clips vidéo, d’une durée généralement de 2 à 4 secondes, au format MP4 avec une résolution de 576×1024.
Points clés détaillés par Stability AI :
- Adaptable à de nombreuses applications vidéo : L’adaptabilité de SVD brille dans de nombreuses tâches liées à la vidéo. L’une de ses applications notables est la synthèse multi-vues à partir d’une seule image, réalisable avec un réglage fin sur des ensembles de données multi-vues. Stability AI envisage une gamme de modèles qui s’appuieront et amélioreront cette technologie fondamentale, en aspirant à créer un écosystème similaire à celui qui s’est développé autour de Stable Diffusion.
- Performances compétitives : Proposé en deux versions pour la conversion image-vidéo, Stable Video Diffusion démontre ses prouesses dans la génération de vidéos de 14 et 25 images à des fréquences d’images réglables entre 3 et 30 ips. Lors des premières évaluations externes, ces modèles se sont révélés plus performants que les principaux modèles fermés dans les études sur les préférences des utilisateurs, même à leurs balbutiements.
Stability AI tient à préciser que la diffusion vidéo stable (SVD) en est actuellement à ses balbutiements et est principalement conçue à des fins de recherche :
Nous mettons à jour nos modèles avec impatience avec les dernières avancées et travaillons à intégrer vos commentaires. Ce modèle n’est pas destiné à des applications réelles ou commerciales à ce stade. Vos idées et commentaires sur la sécurité et la qualité sont importants pour affiner ce modèle en vue de sa sortie éventuelle.
Le document de recherche sur la diffusion vidéo stable ne divulgue pas les origines des ensembles de données de formation. Il mentionne l’utilisation d’un « grand ensemble de données vidéo », qui a été intégré au Large Video Dataset (LVD). Cet ensemble de données impressionnant comprend environ 580 millions de clips vidéo annotés, encapsulant 212 ans de contenu.
Modèles à diffusion stable qui peut élever votre processus de génération
SVD n’est pas le premier modèle d’IA à offrir une telle fonctionnalité, mais il se démarque par son approche et son potentiel. Pour ceux qui souhaitent explorer ou contribuer à SVD, le code source et les pondérations sont ouvertement disponibles. accessible sur GitHub. Une autre façon d’expérimenter avec SVD consiste à utiliser Plateforme Pinokio. Cette plateforme simplifie le processus en gérant les dépendances d’installation et en exécutant le modèle dans un environnement dédié.
Stability AI a introduit la possibilité de rejoindre leur liste d’attente pour une nouvelle expérience Web dotée d’une interface Text-To-Video. Cette interface, optimisée par Stable Video Diffusion, devrait trouver des applications dans divers secteurs tels que la publicité, l’éducation et le divertissement. Il présente un aperçu des utilités pratiques du SVD, démontrant son impact potentiel au-delà de la communauté des chercheurs.